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第 3 版 前 言 


近 几 年 的 教学 实践 证 明 , 本 教材 第 1 版 和 第 2 版 的 内 容 和 框架 都 说 得 了 口碑 ,受到 广大 读 
者 的 欢迎 , 且 被 许多 院 校 选用 。 但 是 随 着 高 性 能 体系 结构 的 推陈出新 ,对 支持 多 源 语言 多 目标 
的 编译 技术 的 研究 显得 尤为 重要 ,而 且 我 们 的 书籍 既 可 以 作为 针对 在 校 的 大 学 生 的 教材 ,又 可 
以 作为 准备 考研 学 生 的 辅导 书 , 为 了 跟踪 学 科 发 展 方向 ,更 好 地 为 广大 读者 服务 ,编者 对 图 书 
作 了 修订 工作 。 

本 书 在 第 2 版 的 基础 上 ,增加 了 经 典 习题 解析 ,在 解析 过 程 中 强化 了 记 法 分 析 、 语 法 分 析 、 
语义 分 析 、 中 间 代 码 生 成 等 知识 的 应 用 ,可 以 满足 教师 教学 和 学 生 自 学 及 考研 需求 。 

为 了 便于 教学 《编译 原理 及 编译 程序 构造 (第 3 版 )》 的 作者 提供 了 本 课程 的 电子 教案 便 
于 自学 者 自己 学 习 。 采用 本 书 作为 教材 的 教师 及 自学 者 ,可 以 从 东南 大 学 出 版 社 免费 获取 电 
子 教案 。 

本 次 修订 工作 主要 由 云 挺 老 师 完成 。 

书 中 若 有 不 妥 之 处 ,请 读者 批评 指正 。 
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编译 原理 及 编译 程序 构造 是 计算 机 专业 的 一 门 很 重要 的 专业 基础 课 , 它 在 计算 机 的 系统 
软件 中 占有 十 分 重要 的 地 位 ,是 计算 机 专业 学 生 的 一 门 主 修 课 ,也 是 硕士 研究 生 入 学 考试 的 课 
程 之 一 。 通 过 30 多 年 的 研究 与 开发 ,该 课程 在 理论 上 已 臻 成熟, 技 术 上 日 趋 完 善 。 有关 “ 编 
译 ” 方 面 的 书籍 很 多 ,内 容 也 很 丰富 .然而 ,编者 通过 多 年 的 教学 实践 ,发 现 现 有 书籍 存在 一 些 
不 足 之 处 :有 的 注重 于 理论 完整 性 ,概念 多 且 抽 象 ;有 的 偏向 于 具体 语言 的 编译 方法 ,缺乏 普遍 
性 ;有 的 内 容 太 多 ,重点 不 突出 ;有 的 是 译文 或 原文 。 这 些 书 籍 对 于 初学 者 来 说 是 比较 难 学 的 ， 
原因 是 这 些 书 籍 缺 乏 理论 联系 实际 ,而 该 课程 又 恰恰 是 理论 基础 坚实 .形式 化 程度 高 ,同时 又 
是 实践 性 很 强 的 一 门 课程 。 因 此 ,理论 与 实践 相 联系 便 是 编者 编撰 这 本 书 的 宗旨 。 

由 于 这 门 课 所 涉及 的 内 容 相 当 广泛 ,我 们 只 能 从 中 选择 最 基本 的 内 容 介 绍 之 。 为 了 读者 
参阅 其 他 书籍 方便 ,文中 尽量 采用 国内 公认 的 有 关 这 门 课 的 术语 与 符号 。 本 书 既 注重 理论 基 
础 又 注意 理论 联系 实际 ,在 讨论 具体 实现 时 都 给 出 了 简明 算法 并 通过 实例 揭示 算法 的 真正 含 
义 。 为 了 加 深 读者 对 构造 编译 程序 的 理解 , 书 末 附 有 EL 语言 编译 程序 构造 的 实践 指导 供 读 
者 在 阅读 本 书 之 余 上 机 实践 用 。 

全 书 共 分 10 章 :第 1 章 对 编译 程序 的 几 个 主要 组 成 部 分 作 一 概述 ,使 读者 对 全 书 有 一 大 
致 了 解 ; 第 2 章 介 绍 编译 的 基础 知识 ,包括 对 文法 的 形式 化 定义 、 文 法 与 语言 关系 及 语言 的 识 
别 方法 等 ;第 3 章 介 绍 有 限 自 动机 、 正 规 文 法 和 正规 式 三 者 关系 ,并 在 此 基础 上 介绍 词法 分 析 ; 
第 4 一 6 章 介绍 预测 分 析 、 优 先 分 析 和 规范 分 析 三 种 语法 分 析 方法 ;第 7 章 介 绍 翻译 方法 ,以 自 
下 而 上 语法 制导 翻译 为 主 兼 顾 介 绍 自 上 而 下 语法 制导 翻译 ,强调 如 何 实 现 自动 翻译 过 程 ;第 8 
音 讨 论 运行 时 的 数据 区 存储 管理 ;第 9、10 章 介 绍 中 间 代 码 优化 与 目标 代码 生成 。 

本 书 拟 讲授 64 一 72 学 时 , 带 “* ”的 章节 只 供 选 用 。 若 本 书 用 于 专科 教学 ,可 放 慢 教学 进 
度 ,语法 分 析 选 两 种 介绍 ,优化 一 章 仅 介绍 优化 概念 一 节 。 学 习 本 书 的 读者 须 有 程序 设计 语言 
(如 Pascal 或 C 等 ) .数据 结构 .离散 数学 方面 的 知识 。 

本 书 的 编写 曾 得 到 复旦 大 学 | 钱 家 骅 | 老师 的 鼓励 和 支持 ,在 此 表示 深 深 悼念 。 编 者 曾 得 到 
众多 同行 的 支持 与 鼓励 ,并 吸收 到 各 方面 的 宝贵 意见 ,在 此 向 他 们 表示 感谢 。 编 者 特别 感谢 孙 
志 挥 老师 . 周 佩 德 老师 以 及 本 课程 小 组 的 各 位 老师 对 编写 .出 版 本 书 所 给 予 的 支持 ,感谢 张 幸 
儿 老 师 、 夏 德 深 老 师 对 本 书 提出 许多 宝贵 意见 。 

限于 编者 水 平 ,错误 与 不 妥 之 处 欢迎 读者 批评 与 指正 。 


编 者 
1995 年 11 月 
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附录 1 

地 请 土 编 译 程 庆 wiv 设 的 6 人 这 
及 .EL 语 育 文 法 的 扩充 Backus 表示 法 59000 (268) 
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附录 2 


本 章 扼 要 叙述 全 书 的 主要 内 容 ,编译 程序 与 高 级 程序 设计 语言 的 关系 ,简单 介绍 编译 程序 
几 个 阶段 所 完成 的 任务 及 编写 编译 程序 的 主要 方法 ,最 后 阐述 理论 联系 实际 的 重要 性 。 


1.1 程序 设计 语言 与 编译 

计算 机 是 人 们 用 来 进行 信息 处 理 的 工具 。 要 让 计算 机 进行 信息 处 理 , 就 得 把 问题 告诉 给 
计算 机 ,让 计算 机 按照 人 的 命令 进行 信息 处 理 。 如 何 把 信息 传 给 计算 机 ? 这 就 要 用 程序 设计 
语言 来 实现 。 

1) 计算 机 程序 设计 语言 

在 计算 机 领域 里 ,通常 人 们 把 计算 机 可 以 直接 接受 的 语言 (代码 ) 称 作 机 器 语言 。 机 器 语 
言 是 由 二 进 制 数 (0,1 序列 ) 组 成 的 ,是 唯一 可 以 在 机 器 上 执行 的 语言 。 由 于 它 难 读 、 难 写 , 又 
与 硬件 环境 关系 太 密 切 , 现 在 几乎 不 为 用 户 直接 使 用 ,但 在 硬件 设计 .工业 控制 场合 还 是 需 
要 的 。 

汇编 语言 是 对 机 器 语言 的 一 大 改进 。 它 用 记忆 符 表示 指令 的 操作 码 , 用 标识 符 表示 操作 
数 的 地 址 ,这 就 大 大 方便 了 书写 与 阅读 。 汇 编 语言 仍然 与 硬件 关系 太 密 切 ,每 一 种 机 器 有 一 套 
甚至 几 套 汇编 语言 ,给 使 用 者 带 来 困难 。 汇 编 语言 不 能 被 机 器 接受 ,必须 通过 汇编 程序 转换 成 
机 器 语言 之 后 , 才 为 计算 机 所 接受 。 

高 级 程序 设计 语言 是 当今 使 用 者 普遍 采用 的 一 种 语言 , 它 彻 底 摆 脱 了 对 硬件 的 依赖 性 , 它 
是 易 读 、 易 写 .不易 出 错 的 一 种 语言 ,而 且 便 于 算法 交流 。 但 是 ,这 种 语言 也 不 为 计算 机 所 接 
受 , 必 须 通过 编译 程序 变换 成 机 器 语言 才能 为 计算 机 所 接受 。 现 代 计 算 机 系统 一 般 含 有 不 止 
一 种 高 级 语言 的 编译 程序 ,供用 户 按 不 同 用 途 进行 选择 。 高 级 语言 编译 程序 是 计算 机 系统 软 
件 的 最 重要 组 成 部 分 之 一 ,也 是 用 户 最 直接 关心 的 工具 之 一 。 

根据 不 同 用 途 产 生 了 各 种 不 同 特点 的 高 级 程序 设计 语言 ,其 中 具有 代表 性 的 计算 机 语言 
有 20 多 种 ,如 : 

。 面向 算法 的 ALGOL ,Pascal、Modula 语言 ; 

， 面向 系统 的 C 语言 ; 

。 面向 数值 计算 的 FORTRAN、BASIC 语言 ; 

， 面 向 数据 处 理 的 COBOL、dBASE、FoxBASE、FoxPro 语言 ; 

。 面向 对 象 的 程序 设计 语言 C 十 十 ; 

， 面向 字符 串 处 理 的 SNOBOL 语言 ; 

。 面向 人 工 智能 的 PROLOG 、LOGLISP、LISP 语言 ; 

。 功 能 较 强 ,较为 通用 的 Ada 语言 和 PL/1 语言 


2) 程序 设计 语言 的 转换 (Conversion) 

翻译 (Translation) 是 指 在 不 改变 语言 的 语义 条 件 下 ,由 一 种 语言 翻译 成 男 一 种 语言 ,它们 
在 逻辑 上 是 等 价 的 ,如 Pascal-~C、 中 文 一 英文 ,高 级 语言 一 汇编 语言 等 。 

编译 是 专 指 从 高 级 语言 转换 为 低级 语言 (如 高 级 语言 汇编 语言 或 高 级 语言 ~ 机 器 语言 ， 
也 可 以 是 高 级 语言 一 汇编 语言 一 机 器 语言 ) ,然后 对 编译 出 来 的 目标 程序 进行 运行 .计算 。 通 
常 编译 过 程 分 两 个 阶段 或 三 个 阶段 :前 一 阶段 由 编译 程序 (或 包含 汇编 程序 ) 完 成 ,后 一 阶段 由 
运行 子 程序 配合 完成 。 编 译 过 程 可 用 图 1. 1 表示 , 它 分 为 编译 时 与 运行 时 两 个 阶段 的 编译 过 
程 (图 1. 1(a) ) ,或 者 分 为 编译 时 .汇编 时 和 运行 时 三 个 阶段 的 编译 过 程 ( 图 1.1(b)) 。 


盒 | | 纺 是 机 日 关 
洲 级 | .| 译 | .| 标 器 标 鱼 
生生 程 代 语 代表 
豆 序 码 豆 码 序 
人 
编译 时 运行 时 
(a) 分 为 两 个 阶段 的 编译 过 程 
纺 汇 运 
y : 汇 E 目 初 目 各 i 
四 于 编 得 标 器 | | 标 生 | .| 下 
序 序 语 序 代 数 代 程 结 
(计算 机 ) 国 (计算 机 ) | | 玛 据 码 序 娄 
Ny 
编译 时 汇编 时 运行 时 
(b) 分 为 三 个 阶段 的 编译 过 程 
1.1 编译 过 程 


解释 (Interpretion) 是 指 接受 某 高 级 语言 的 一 个 语句 输入 ,进行 解释 并 控制 计算 机 执行 ， 
而 且 马 上 得 到 结果 ,然后 再 接受 一 个 语句 ,重复 上 述 过 程 直 至 源 程序 处 理 结束 。 也 就 是 它 把 解 
释 与 运行 融 为 一 体 , 不 再 分 解释 时 与 运行 时 。 解 释 程 序 执行 过 程 的 示意 图 如 图 1. 2 所 示 。 解 
释 好 上 比 口头 翻译 ,输入 一 句 翻译 一 句 , 输 入 完 翻译 也 完成 ,并 不 把 源 程序 转换 成 目标 代码 ,所 以 
第 二 次 翻译 时 又 得 按 此 过 程 重新 做 一 遍 , 因 此 它 是 低 效 的 一 种 方法 。 对 于 要 反复 执行 的 程序 
不 宜 采用 解释 方法 ,但 用 解释 方法 也 有 不 少 优点 :直观 易 懂 ,解释 程序 结构 简单 易于 实现 ,易于 
实现 人 机 会 话 等 。 例 如 BASIC 语言 就 是 一 种 结构 简单 .易学 易 用 的 会 话 型 语言 ,一 般 采 用 解 
释 方法 实现 。 


序 
(计算 机 ) 


图 1.2 解释 程序 执行 过 程 


解释 程序 与 编译 程序 的 结构 大 同 小 异 , 本 书 主要 介绍 编译 程序 构造 的 理论 基础 及 其 实 
现 方法 ,这 些 内 容 绝 大 部 分 也 适用 于 后 者 。 对 详细 的 解释 程序 构造 方法 ,读者 可 参阅 有 关 
书籍 。 
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1.2 编译 程序 概述 


编译 程序 的 工作 即 从 输入 源 程序 开始 到 输出 目标 源 程 序 
PE 
程序 为 止 的 整个 过 程 ,是 非常 复杂 的 。 一 般 来 说 ,这 整 词法 分 析 器 


个 过 程 可 以 划分 成 五 个 阶段 :词法 分 析 、 语 法 分 析 、 中 间 
代码 生成 ,优化 和 目标 代码 生成 (有 时 也 分 成 六 个 阶段 ， 
在 语法 分 析 之 后 加 上 一 个 语义 分 析 , 不 过 这 个 阶段 也 可 
归 入 中 间 代 码 生 成 阶段 来 完成 ) ,如 图 1. 3 所 示 。 
在 一 些微 、 小 型 机 中 ,在 对 编译 质量 要 求 不 高 的 场 

合 ,可 跳 过 中 间 代 码 生 成 和 优化 两 个 阶段 ,在 语法 分 析 
后 直接 生成 目标 代码 。 这 时 的 语义 分 析 可 归 入 目标 代 
生成 阶段 来 完成 。 

下 面试 以 一 个 包含 有 错误 语句 的 Pascal 程序 段 为 
例 ,来 看 看 这 五 个 阶段 的 工作 过 程 。 


| 


目标 代码 生成 器 


假定 程序 写 为 ， + 目标 代码 
1 ， program EXAMPLE; 1.3 编译 阶段 
和 var yvcvd:integer; 
3 xyavb:real; 
4 begin 
4 x: 一 a 十 bx 50; 
6 y: 一 c 十 )dx* (x 十 b; 
bi end. 


1.2.1 词法 分 析 


单词 是 高 级 语言 中 有 实在 意义 的 最 小 语法 单位 ,而 单词 又 由 字符 组 成 。 每 一 种 高 级 语言 

都 定义 一 组 字符 集 。 单 词 有 的 由 单字 符 组 成 ,如 十 ,一 , * ,/ 等 ;有 的 由 两 个 字符 组 成 ,如 :=， 
二 三 等 ;有 的 由 一 个 或 多 个 字符 组 成 ,如 常数 .标识 符 、 基 本 字 或 标准 标识 符 等 。 从 输入 的 源 程 
序 字符 串 中 逐个 地 把 这 些 单 词 识别 出 来 ,并 转化 成 机 器 比较 容易 使 用 的 内 码 形式 ,这 是 词法 分 
析 的 主要 任务 。 一 般 内 码 可 以 用 二 元 式 ( 类 号 ,内 码 ) 表 示 。 如 上 面 的 一 段 程序 可 以 通过 词法 
分 析 识 别 出 以 下 五 类 单词 , 

基本 字 program,var,integer,real, begin,end 

标识 符 “a,b,c,d,x,y, EXAMPLE 

整 常数 50 

运算 符 十 ,* ,: 一 

界限 符 ”;，,:,(,)，,. 
其 中 ,基本 字 ,运算 符 、 界 限 符 的 数目 对 于 一 种 语言 而 言 是 一 定 的 ,对 每 一 个 赋予 它 一 个 类 号 ， 
可 以 做 成 一 一 对 应 。 而 标识 符 与 常数 是 由 用 户 任 意 使 用 的 ,其 数目 无 限 。 解 决 办 法 是 给 标 
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识 符 分 配 一 个 类 号 ,不 同 的 标识 符 用 它 的 符号 表 入 口 地址 (或 变量 地 址 ) 来 区 分 ,将 这 些 地 
址 当 作 内 码 给 出 。 同 样 ,将 常数 分 为 若干 类 : 整 型 常数 、 实 型 常数 .字符 常数 .布尔 常数 , 然 
后 也 用 它们 的 常数 表 入 口 地 址 作为 内 码 给 出 。 在 这 个 过 程 中 需要 查 造 符号 表 和 常量 表 并 
进行 出 错 处 理 。 

总 之 ,词法 分 析 就 是 扫描 源 程序 字符 串 , 按 词法 规则 识别 出 正确 的 单词 ,并 转换 成 统一 规 
格 ( 类 号 ,内 码 ) 交 语法 分 析 使 用 。 


1.2.2 语法 分 析 


语法 分 析 阶 段 的 任务 是 组 词 成 句 。 每 一 种 语言 都 有 一 组 规则 , 称 之 为 语法 规则 或 文法 。 
按照 这 些 文法 ,可 以 由 单词 组 成 语法 单位 ,如 短语 .语句 、 过 程 和 程序 。 语 法 分 析 就 是 通过 语法 
分 解 ,确定 整个 输入 串 是 否 能 构成 语法 上 正确 的 句子 和 程序 等 。 

语法 规则 写成 Backus-Naur-Form 式 , 简 称 BNF。 其 形式 是 A::=BIC, 读 做 *“A 定义 为 B 
或 韦 7: 

下 面 是 赋值 语句 的 语法 规则 ,A 是 Assignment 的 缩写 ,意思 是 赋值 语句 , 称 A 为 规则 的 
开始 符号 ,而 V,E,T,F,C 分 别 是 变量 .表达 式 、 项 .因子 .常数 的 意思 。 每 一 行 称 作 一 个 规则 ， 


信守 三 Wi 一 瑟 
E::=T|E+T 
T::=F|T*F 
F::=V|(E)IC 
V: :三 标识 符 
C::= 二 常数 


当然 ,还 有 其 他 语句 的 语法 规则 ,如 条 件 语句 、 循 环 语句 、 过 程 调用 语句 和 说 明 语 句 等 规 
则 。 上 面 的 EXAMPLE 程序 的 第 2.3 行 是 说 明 语句 。 语 法 分 析 对 说 明 语句 的 处 理 主要 是 填 
写 符号 表 ,而 对 一 般 语 句 的 处 理 则 是 构造 语法 树 。 
语法 分 析 有 两 种 方法 :推导 (derive) 和 归 约 (reduce)。 以 推导 为 例 , 推 导 是 从 文法 的 开始 
符号 开始 ,按照 语法 规则 ,每 次 选择 某 规 则 右 部 的 一 个 候选 式 取 代 左 部 直至 识别 了 句子 或 者 找 
出 错误 为 止 。 
下 面 就 以 上 述 程序 的 第 5.6 行 语句 为 例 ,看 看 它们 的 分 析 过 程 。 采 用 最 右 推导 ,语句 x; = 
a 十 bx* 50 的 分 析 如 下 : 
A=V:=E>V:=E+T>V:=E+T*F>V:=E+T*C>V:=E+Tx50 
>V;=E+F*50>V:=E+Vx*50>V;=E+bx*50>V:;=T+bx*50 
>V:=F++bx*50>V:=V+bx*50>V:=a++b*50=>x:=a++bx50 
这 个 过 程 可 以 用 一 棵 倒立 的 语法 树 来 描述 ( 见 图 1. 4(a))。 把 语法 树 末端 符 从 左 到 右 连 
接 起 来 , 正 是 要 求 识 别 的 语句 ,所 以 该 语句 为 正确 的 语句 。 
再 看 另 一 语句 y: 王 c 十 )dx* (x 十 b 的 分 析 过 程 : 
A=V:=E=SV;=E+T>V:=E+F=>V:=E+V=>V:=E+b=>V:=T+b 
>V:=TxF+b=>V:=Tx*xV+b>V:=Txx+tb 
再 也 无 法 继续 往 下 推导 了 ,这 表明 这 时 的 “(? 号 是 错 的 , 即 输 入 串 有 错 。 如 果 也 画 成 语法 树 ( 见 
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图 1.4(b)) , 按 其 从 左 到 右 的 末端 符 连 接 再 也 不 是 被 识别 的 句子 。 


A A 
> i -一 个 
过 E V $e E 
x Ss -一 [人 
E + T ? 刷 1 
2 AS 
1 和 Ts 
T 了 了 ~ 
V V 50 Y b 
! | ! 
(a) (b) 
图 1.4 语法 树 


1.2.3 ”中间 代码 生成 


中 间 代 码 是 在 语法 分 析 正 确 的 基础 上 ,按照 相应 语义 规则 产生 的 一 种 介 于 源 语言 与 目标 
代码 之 间 的 代码 ,这 种 代码 不 依赖 于 机 器 但 又 便于 产生 依赖 于 机 器 的 目标 代码 。 中 间 代 码 有 
多 种 形式 :四 元 式 .三 元 式 和 逆 波 兰 式 等 。 其 中 用 得 最 广 的 是 四 元 式 。 源 语句 x: 二 a 十 b * 50 
转换 成 中 间 代 码 形式 是 : 

T1:;=inttoreal(50) /* 整 常 数 转换 成 实 常数 的 四 元 式 表示 法 */ 


T2;=b* Tl /* 或 写作 C(* ,b,T1,T2) * / 
T3 :一 a 十 T2 /* 或 写作 (十 ,a,T2,T3)*/ 
x: 一 T3 /* 或 写作 (:=,T3,_,x)*/ 


中 间 代 码 是 为 后 续 的 优化 和 目标 代码 生成 提供 方便 ,因此 中 间 代 码 的 选择 往往 与 所 采用 
的 优化 技术 和 计算 机 硬件 结构 有 关 。 


1.2.4 优化 


优化 的 任务 在 于 对 前 一 阶段 产生 的 中 间 代 码 进行 加 工 变换 ,以 期 在 最 后 阶段 能 产生 出 更 
为 高 效 ( 省 时 间 、 省 空间 ) 的 目标 代码 。 壁 如 上 面 的 中 间 代 码 可 变换 成 如 下 两 句 四 元 式 代码 : 
Tl:=bx*50.0 
x: 二 a 十 Tl 
优化 主要 包括 :删除 公共 子 表达 式 、 合 并 已 知 量 、 删 除 无 用 赋值 循环 优化 等 。 优 化 所 依据 
的 原则 是 程序 的 等 价 变换 规则 。 例 如 ,把 程序 段 
FOR K:=1 TO 100 DO 
BEGIN 
M: 王 I 十 10* 开 
N:=J+10x*K 
END; 


转换 成 的 四 元 式 和 经 优化 后 产生 的 四 元 式 用 下 表 表 示 : 


转换 成 四 元 式 经 优化 后 产生 四 元 式 
(1) K:=1 (1) 及 :一 1 


(2) if K>100 goto (9) (2) Ti:=10*K 


(3) Ti:=10*K (3) R:=10* 100 


(4) M:=I+T, (4) if Ti >R goto (9) 


(5) Ts:=10*K (5) M:=I+T 


(6) N:=J+T; (6) N:=J+T 


(7) K:;=K+1 (7) Ti:=Ti+10 


(8) goto (2) (8) goto (4) 


(9) (9) … 


显然 ,经 优化 后 循环 体 缩小 了 ,原来 要 做 701 条 指令 现在 只 做 503 条 指令 ;原来 要 做 300 
次 加 法 ,200 次 乘法 ,现在 只 做 300 次 加 法 ,2 次 乘法 。 

编译 程序 所 产生 的 目标 代码 质量 的 高 低 ,主要 取决 于 代码 优化 程序 功能 的 强 弱 。 当 然 , 若 
要 求 的 优化 结果 质量 越 高 ,所 付出 的 代价 也 就 越 大 ,因此 只 能 根据 具体 情况 ,适可而止 。 


1.2.5 目标 代码 生成 


一 阶段 的 主要 任务 是 把 中 间 代 码 程序 转换 为 具体 机 器 的 指令 序列 。 转 换 过 程 需 涉及 具 
ee 令 系 统 以 及 寄存 器 分 配 等 硬件 功能 。 例 如 ,上 述 经 优化 后 的 中 间 代 码 可 生成 如 下 
用 汇编 语言 表示 的 目标 代码 : 


LOAD R2,b 
MUL R2,50.0 
LOAD Rl,a 
ADD R1,R2 


STORE Rl,x 


1.2.6 表格 与 表格 管理 


编译 的 五 个 阶段 都 需要 与 表格 打交道 ,用 以 记录 源 程序 的 各 种 信息 以 及 编译 过 程 中 的 各 
种 状况 ,以 便 后 继 阶段 使 用 ,也 即 在 编译 过 程 的 各 个 阶段 都 有 查 造 表 、 填 表 等 功能 。 一 般 而 言 ， 
与 编译 的 头 三 个 阶段 有 关 的 表格 有 : 
”符号 表 : 登 记 源 程 序 中 的 常量 名 、 变 量 名 ,数组 名 、 过 程 名 等 的 性 质 、 定 义 和 引 用 状况 ; 
”常数 表 : 登记 源 程 序 中 出 现 的 各 种 类 型 字面 常数 (直接 量 ) 的 值 ; 
”标号 表 : 登 记 源 程序 中 出 现 的 标号 的 定义 和 引用 情况 (此 表 可 与 符号 表 合 并 ); 
”分 程序 入 口 表 : 登 记过 程 的 层 号 、 分 程序 符号 表 的 入 口 ( 指 分 程序 结构 的 语言 ) 等 ; 


， 中 间 代 码 表 :记录 四 元 式 序列 的 表 。 
这 些 表 的 格式 一 般 分 为 两 栏 ,如 下 所 示 : 


NAME( 名 字 ) INFORMATION( 信 息 ) 


例如 ,对 于 FORTRAN 程序 段 : 
SUBROUTINE INCWAPCM,N) 
10 “KK=M+1 
M= N+4 
N=K 
RETURN 
END 
能 构造 如 下 表格 :符号 表 ( 表 1. 1) .常数 表 ( 表 1.2) 、 和 人口 名 表 ( 表 1. 3) ,标号 表 ( 表 1. 4) 以 及 四 
元 式 序列 表 ( 表 1.5) 。 有 时 人 口 名 表 也 可 以 并 人 符号 表 。 


表 1.1 符号 表 
表 1.2 常数 表 (CT) 
INFORMATION 


1 哑 元 、 整 型 .变量 地 址 一 
1 1 

2 哑 元 、 整 型 .变量 地 址 | 
2 

3 整 型 .变量 地 址 


表 1.3 入 口 名 表 表 1.4 标号 表 
INFORMATION INFORMATION 


INCWAP | 二 目 子 程序 .四 元 式 序号 1 四 元 式 序号 4 


表 1.5 四 元 式 序列 表 


OP RESULT 
link 过 


actpar INCWAP 


actpar INCWAP 


M 


N 


开 


paract INCWAP 


paract INCWAP 


return 种 


其 中 符号 表 记 录 了 源 程序 中 出 现 的 三 个 变量 名 M\N 和 K 的 有 关 性 质 ;CT 表 记录 了 常数 
1 和 4 的 值 (已 经 是 内 部 二 进 制 代 码 ); 入 口 名 表 记 录 了 子 程序 名 INCWAP 的 入 口 地 址 , 即 为 
四 元 式 表 的 序号 1; 标 号 表 记 录 了 标号 10 对 应 的 四 元 式 序号 4; 四 元 式 序列 表 记 录 了 源 程序 翻 
译 成 的 四 元 式 序列 ,其 中 : 


Clinky. 33» 表示 保护 返回 地 址 和 有 关 寄 存 器 内 容 , 它 相当 于 宏 

(actpar, INCWAP,1,M) 表示 传递 第 一 个 实 变 元 到 M 单元 

Cactpar,INCWAP,2,N) 表示 传递 第 二 个 实 变 元 到 N 单元 

(+,M,1,K) 表示 K:=M+1 

(十 ,N,4,M) 表示 M: 王 N 十 4 

(:=,K,_,N) 表示 N:=K 

(paract, INCWAP,1,M) 表示 把 M 送 回 到 第 一 实 变 元 所 指 地 址 单元 

(paract,INCWAP,2,N) 表示 把 N 送 回 到 第 二 实 变 元 所 指 地 址 单元 

(Creturn，，，) 表示 恢复 寄存 器 内 容 , 并 把 控制 返回 到 调用 程序 

注意 :在 四 元 式 表 中 实际 上 不 是 直接 写 上 操作 数 ( 或 结果 数 ) 的 名 字 而 是 填 上 有 关 表 格 的 

人 入口 地 址 或 序号 


当 着 手 为 某 种 语言 在 某 个 机 器 上 设计 编译 程序 时 ,首先 必须 根据 用 户 的 整体 要 求 ( 例 如 对 
于 优化 方面 的 要 求 ) ,审慎 地 选择 中 间 代 码 ,周密 地 考虑 各 种 全 局 性 名 表 ( 即 各 个 阶段 都 要 用 到 
的 表格 ) 的 信息 安排 。 这 些 事情 出 了 差错 必 导 致 后 来 的 大 返工 ,甚至 招致 失败 。 

在 编译 过 程 中 , 随 着 源 程序 的 不 断 被 改造 ,编译 的 各 阶段 常常 需要 不 同 的 表格 。 例 如 , 语 
法 分 析 阶 段 和 目标 代码 生成 阶段 所 需要 的 表格 就 有 很 大 差别 。 由 于 各 种 信息 是 被 保存 在 各 种 
不 同 表格 中 ,因此 编译 过 程 的 绝 大 部 分 时 间 是 花 在 查 表 、 造 表 和 更 新 表格 的 事务 上 。 所 以 , 选 
择 一 种 好 的 表格 结构 和 查找 算法 对 于 构造 编译 程序 来 说 是 至 关 重 要 的 。 

在 大 多 数 的 编译 程序 中 ,表格 的 构造 ,查找 和 更 新 通常 是 由 一 组 专门 的 程序 来 完成 的 ,这 
组 程序 称 为 表格 管理 程序 。 对 编译 程序 而 言 它们 是 工具 ,是 事先 编制 好 、 供 需要 时 调用 的 。 这 
部 分 内 容 在 数据 结构 课程 中 学 过 ,本 课程 不 再 详细 介绍 。 


1.2.7 出 错 处 理 


如 果 源 程序 有 错误 ,编译 程序 应 设法 发 现 错误 ,并 把 有 关 的 出 错 信息 报告 给 这 部 分 
的 工作 是 由 专门 的 一 组 程序 (叫做 出 错 处 理 程序 ) 完 成 的 。 一 个 好 的 编译 程序 ee 
地 发 现 源 程序 中 的 各 种 错误 ,指出 错误 的 性 质 和 发 生 错 误 的 位 置 ( 用 源 程 序 的 行 号 、 列 号 定 
位 ), 并 且 能 将 错误 所 造成 的 影响 限制 在 尽 可 能 小 的 范围 内 ,使 得 源 程序 剩余 部 分 能 继续 被 编 
译 下 去 ,通常 是 跳 过 所 在 语句 ,接着 分 析 后 继 语句 ,以 便 进一步 发 现 其 他 可 能 的 错误 。 如 果 能 
让 机 器 自动 地 校正 错误 , 那 当然 最 好 ,迄今 为 止 许 多 人 花 了 很 大 力气 做 这 件 事 ,但 收效 其 微 。 
因为 ,有 的 错误 甚至 是 无 法 自动 改正 的 。 

查 错 也 是 不 容易 的 ,往往 一 个 错误 掩盖 另 一 个 错误 或 者 一 个 错误 诱发 多 个 错误 ,所 以 查 错 


也 没有 形式 化 的 办 法 解决 ,本 书 也 不 打算 深入 探讨 查 错 与 纠 错 问 题 。 


1.2.8 遍 


饥 是 编译 程序 从 外 部 介质 (磁盘 或 其 他 外 部 存储 器 ) 读 取 源 件 ( 源 程序 或 中 间 代码 ) ,经 过 
加 工 获得 某 种 结果 件 ( 中 间 代 码 或 目标 代码 ) 并 将 其 送 回 外 部 介质 的 过 程 。 所 以 , 遍 与 阶段 的 

有 的 编译 程序 把 编译 的 五 个 阶段 工作 结合 在 一 起 ,通过 对 源 程 序 的 从 头 到 尾 扫描 完成 编 
译 的 各 项 工作 ,把 源 程序 翻译 成 可 在 机 器 上 运行 的 目标 程序 。 这 种 编译 程序 称 作 一 这 扫描 。 
它 的 内 部 结构 不 再 分 成 五 个 阶段 ,而 是 互相 穿插 进行 ,如 图 1. 5 所 示 。 它 是 以 语法 分 析 为 核 
心 , 当 分 析 需 要 源 程序 的 单词 时 ,向 扫描 器 发 出 取 单 词 的 调用 命令 ,扫描 器 送 回 单词 的 信息 (类 
号 ,内 码 ); 当 分 析 进 行 到 归 约 时 ,调用 语义 子 程序 ,产生 目标 代码 并 返回 有 关 信息 ,让 语法 分 析 
继续 进行 。 


1.5 一 遍 扫 描 编 译 过 程 


有 的 编译 程序 需要 多 遍 扫 描 才 能 完成 ,至 于 采用 何 种 方式 是 根据 具体 情形 决定 的 ,一 般 是 
由 语言 本 身 的 性 质 \ 机 器 的 内 存 大 小 、 目 标 代 码 形式 以 及 设计 人 员 的 多 少 而 决定 的 。 

有 些 语言 允许 对 一 些 过 程 标 号 、 变 量 名 等 采用 先 使 用 后 定义 的 方式 。 这 些 语言 至 少 需 要 
两 遍 扫 描 ,因为 第 一 遍 是 确定 这 些 东 西 的 地 址 ,第 二 遍 才 能 生成 引用 这 些 地 址 的 目标 代码 。 多 
遍 扫 描 结 构 可 以 节省 内 存 空 间 , 提 高 目标 代码 质量 ,使 编译 的 逻辑 结构 清晰 。 但 多 遍 扫 描 会 出 
现 一 些 重复 性 工作 ,而 且 每 遍 都 要 读 写 外 部 介质 ,编译 时 间 较 长 。 所 以 ,在 内 存 许可 的 情况 下 ， 
还 是 遍 数 尽 可 能 少 些 为 好 。 

[ 例 1. 1 一 个 语句 翻译 的 整个 过 程 。 


10 


position: = initial 十 rate * 60 


词法 分 析 器 


| 
idl: 一 id2 十 id3* 60 


语法 分 析 器 


id3 inttoreal 


60 
| 

中 间 代 码 生成 
! 


templ : 


一 inttoreal(60) 


temp2: = id3 * templ 


temp3: = id2 十 temp2 
idl: = temp3 
| 
优化 


templ: = id3 * 60.0 
idl: = id2 十 templ 
目标 代码 生成 器 
move id3.R2 
move #60.0,R2 
mov id2 ,R1 

mov R2,R1 

mov Rl1.idl 


符号 表 


Position 


initial 


1.3 编译 程序 生成 


编译 程序 是 可 以 在 机 器 上 直接 执行 的 程序 ,所 以 它 一 a 
必定 是 机 器 语言 程序 .也 即 由 二 进 制 代码 序列 组 成 的 。 入 ER Bt 
编译 程序 的 作用 是 将 高 级 语言 书写 的 源 程序 变换 成 目 编译 程序 
标 程序 ,可 用 图 1.6 表示 。 图 1.6 编译 程序 的 作用 

编译 程序 生成 方式 有 如 下 六 种 

(1) 直接 用 机 器 语言 编写 编译 程序 。 机 器 语言 是 早期 编写 编译 程序 的 唯一 工具 ,但 由 于 
机 器 语言 难 读 难 写 ,现在 几乎 没有 人 再 用 它 。 

(2) 用 汇编 语言 编写 编译 程序 。 由 于 汇编 语言 太 依赖 于 硬件 环境 , 且 程序 过 于 宛 长 ,现在 
也 不 常用 。 不 过 由 于 它 通过 汇编 程序 产生 的 目标 代码 效率 比较 高 ,所 以 在 编译 程序 核心 部 分 
常用 它 编写 。 其 过 程 用 图 1. 7 表示 。 

(3) 高 级 语言 编写 。 这 是 目前 普遍 采用 的 一 种 编写 编译 程序 方法 ,但 只 能 选择 面向 算法 
的 语言 或 面向 系统 的 语言 如 Pascal、C 语言 等 作为 编写 工具 。 采 用 高 级 语言 编写 可 以 节省 大 
量 的 程序 设计 时 间 ,而 且 构 造 出 的 编译 程序 结构 良好 ,易于 阅读 、 修 改 和 移植 。 其 过 程 如 图 
1. 8 表示 。 


Modula 源 程 序 
S 


源 程序 
汇编 语言 


目标 代码 目 标 程序 


Modula 编译 程序 
汇编 程序 Pascal 编译 程序 
1.7 用 汇编 语言 编写 编译 程序 1.8 用 高 级 语言 编写 编译 程序 


图 1.8 是 用 Pascal 语言 编写 Modula 语言 的 编译 程序 的 过 程 。 

(4) 编译 工具 。 现 在 人 们 已 经 建立 了 多 种 编制 部 分 编译 程序 或 整个 编译 程序 的 有 效 工 
具 。 有 些 能 用 于 自动 产生 词法 分 析 器 ,如 Lex 语言 及 其 实现 。 有 的 可 用 于 自动 产生 语法 分 析 
器 ,如 YACC, 可 用 于 自动 产生 LALR 分 析 表 。 有 的 甚至 可 用 来 自动 产生 整个 编译 程序 。 用 
来 构造 编译 程序 的 工具 有 :编译 程序 -编译 程序 .编译 程序 产生 器 .翻译 程序 书写 系统 等 。 它 们 
是 按照 对 源 语言 和 目标 语言 的 形式 描述 而 自动 产生 编译 程序 的 。 

(5) 自 编 译 。 这 是 由 瑞士 苏黎世 理工 学 院 
的 N. Wirth 教授 提出 的 ,他 构造 了 Pascal 语言 
编译 程序 。 其 过 程 如 下 :首先 选择 语言 Si 的 一 
个 很 小 子 集 S" (通常 是 语言 的 核心 部 分 ) ,手工 
构造 ( 即 用 汇编 语言 编写 )S* 的 编译 程序 C", 然 。 s' 语 言 
后 用 S" 语言 来 编写 比 C" 能 力 强 一 些 的 编译 程 
序 C"! ,那么 C” :就 可 以 用 来 编译 比 S" 能 力 强 
的 So: 语言。 这 样 通过 自 展 ,就 像 滚 雪 球 一 样 ， 国 4. Paseal 月 博 泽 过 各 
越 滚 越 大 ,最 后 形成 人 们 所 期 望 的 整个 编译 程 
序 ,也 就 是 说 生成 S: 语言 的 编译 程序 C: 。 这 个 过 程 用 图 1. 9 表示 。 

(6) 移植 。 即 把 某 型 号 机 器 上 的 某 语言 的 编译 程序 移植 到 另 一 种 型 号 机 器 上 ,或 者 在 一 

I 


四 人 目标 程序 


SDSD…DS”DS" 
CDCD…DCDCI 


台 老 型 号 机 器 上 为 一 台新 型 号 的 机 器 配 上 适当 的 编译 程序 。 移 植 方法 有 多 种 ,比如 找 一 个 适 
当 的 中 间 语 言 , 它 能 为 两 种 型 号 机 器 所 接受 ,那么 甲 机 软件 先 变换 成 中 间 语 言 , 然 后 乙 机 将 中 
间 语 言 变换 成 乙 机 软件 。 当 然 , 要 找 一 个 通用 的 中 间 语 言 实际 上 办 不 到 ,所 以 移植 也 只 能 在 几 
种 语言 几 种 机 型 之 间 进 行 。 


1.4 编译 程序 构造 


要 在 某 台 机 器 上 为 某 语言 构造 一 个 编译 程序 ,必须 掌握 下 述 三 方面 的 内 容 。 

(1) 源 语言 。 对 被 编译 的 源 语言 (如 Pascal 子 集 或 其 他 新 定义 语言 ), 要 深刻 地 理解 其 结 
构 ( 语 法 )、 含 义 (语义 ) 和 用 途 ( 语 用 )。 

(2) 目标 语言 。 假 定 目 标语 言 是 机 器 指令 语言 ,那么 就 必须 搞 清楚 硬件 的 系统 结构 和 操 
作 系 统 的 功能 ,因为 语言 是 在 某 操作 系统 支持 下 才能 运行 的 。 特 别 是 输入 输出 指令 , 它 的 具体 
操作 是 由 操作 系统 完成 的 ,编译 程序 要 为 这 些 操 作 提 供 必要 的 参数 格式 等 。 还 有 存储 分 配 、 
外 部 设备 管理 .文件 管理 等 都 与 操作 系统 密切 相关 。 

(3) 编译 方法 。 把 一 种 语言 程序 编译 成 男 一 种 语言 程序 的 方法 很 多 。 本 书 介绍 的 几 种 语 
法 分 析 方 法 都 是 前 人 使 用 的 卓有成效 的 方法 ,可 根据 需要 任 选择 其 一 使 用 。 

本 书 并 不 以 某 特 定 的 机 器 作为 编译 程序 的 实现 对 象 , 因 为 那样 将 过 分 依赖 于 硬件 系统 与 
机 器 指令 系统 ,不 利于 抓 住 本 质问 题 进 行 学 习 。 本 书 也 不 打算 介绍 某 具 体 程序 语言 的 编译 , 因 
为 这 不 具有 普遍 性 与 通用 性 。 但 由 于 Pascal 语言 是 本 专业 学 生 必 修 的 前 导 课 程 ,所 以 我 们 在 
讲解 语言 翻译 时 , 举 了 较 多 的 Pascal 语句 编译 的 例子 ,以 加 深 学 生 对 Pascal 语言 的 理解 ,以 期 
达到 举一反三 的 效果 。 

由 于 编译 程序 是 一 个 极其 复杂 的 系统 , 故 在 讨论 时 ,只 好 把 它 肢解 开 来 ,一 部 分 一 部 分 地 
研究 。 因 此 ,学 习 中 应 注意 前 后 联系 ,切忌 用 静止 的 、 孤 立 的 观点 看 竺 问题。 作为 一 门 技术 性 
课程 ,学 习 时 务必 注意 理论 联系 实际 。 我 们 在 介绍 每 一 部 分 时 ,都 首先 介绍 基本 思想 ,实现 算 
法 ,并 给 出 相应 的 类 Pascal 表示 法 ,然后 举例 说 明 。 为 了 对 这 些 算 法 加 深 理解 ,一般 还 给 予 一 
定 作业 。 有 条 件 的 读者 ,最 好 能 通过 上 机 ,将 这 些 算法 用 具体 语言 实现 之 。 

编译 课程 是 一 门 理论 性 和 实践 性 都 很 强 的 专业 基础 课程 。 要 学 好 编译 这 门 课 , 最 好 办 法 
是 随 着 课堂 的 教学 亲自 编制 部 分 或 全 部 编译 程序 。 当 然 , 要 完成 大 型 语言 的 编译 程序 的 构造 
是 不 可 能 的 , 那 需要 若干 人 和 若干 年 才能 做 到 。 但 编写 某 种 语言 的 子 集 或 模拟 性 语言 的 编译 
程序 还 是 有 可 能 的 。 本 课程 的 实践 要 求 构 造 一 个 编译 程序 ,其 处 理 的 源 语 言 是 一 个 简化 的 
Pascal 语言 ( 称 EL 语言 )。 编 译 程序 采用 Pascal 语言 或 C 语言 编制 。 通 过 课程 实践 来 加 深 对 
本 课程 的 了 解 ,并 掌握 一 些 主要 算法 的 应 用 。EL 语言 及 课程 实践 有 关内 容 见 书后 附录 。 

要 完整 地 构造 一 个 编译 程序 并 不 是 一 件 容易 的 事情 , 它 不 仅 需要 具备 较 多 的 硬件 与 软件 
知识 ,并 需要 掌握 现 有 的 软件 工具 的 使 用 ,而 且 更 重要 的 是 要 有 丰富 的 实践 经 验 。 


习 题 


1-1 何谓 源 程序 、 目 标 程序 、 翻 译 程序 、 编 译 程序 和 解释 程序 ? 它们 之 间 可 能 有 何 种 
关系 ? 

1-2 一 个 典型 的 编译 系统 通常 由 哪些 部 分 组 成 ? 各 部 分 的 主要 功能 是 什么 ? 
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2 编译 基础 知识 


1956 年 语言 学 家 Chomsky 提出 形式 语言 理论 ,这 大 大 促进 了 程序 设计 语言 的 研究 与 发 
展 ,也 促进 了 编译 理论 的 发 展 。 形 式 语言 理论 已 成 为 计算 机 科学 的 一 个 重要 组 成 部 分 。 编 译 
原理 的 主要 内 容 可 以 归结 为 应 用 形式 语言 理论 ,并 将 它 贯 穿 于 词法 分 析 与 语法 分 析 两 个 阶段 。 
也 就 是 说 ,我 们 主要 介绍 正规 文法 和 上 下 文 无 关 文 法 及 其 对 应 的 有 限 自 动机 和 下 推 自动 机 ,并 
说 明 它们 在 构造 编译 程序 中 的 应 用 。 


2.1 字母 表 与 符号 串 


(1) 字母 表 是 符号 的 非 空 有 穷 集合 。 符 号 是 语言 中 最 基本 的 不 可 再 分 的 单位 。 字 母 表 习 
惯 上 用 沁 、V 或 其 他 大 写字 母 表 示 , 如 Vi 一 {a,b,c},V: 一 (十 ,一 ,0,…,9}, 忆 一 {x|xEASCII 
字符 } 等 都 是 字母 表 。 

符号 串 是 字母 表 中 符号 组 成 的 有 穷 序列 。 例 如 a,b,c,abc,acb,bc,… 是 Vi 上 的 符号 串 ， 
1 250, 十 2, 一 1835,… 任 何 一 个 整数 都 是 V 上 的 符号 串 ; 显 然 ,任何 一 个 英文 句子 ,程序 设计 
语言 的 句子 都 是 之 上 的 符号 串 。 

(2) 不 含有 任何 符号 的 串 称 作 空 串 , 记 作 es。 

(3) 字母 表 上 符合 某 种 规则 构成 的 串 称 作 句 子 。 

语言 是 字母 表 上 句子 的 集合 .例如 mov R,c;he is a good student 等 是 之 上 的 句子 。 虽 然 
add 1,2;peanut ate monkey 没有 任何 意义 ,但 它们 符合 句子 的 定义 ,因此 也 是 光 上 的 句子 。 

今后 我 们 约定 :用 a,b,c,… 表 示 符 号 ;用 a,B,Y,… 表 示 符 号 串 ; 用 A,B,C,… 表 示 其 集合 。 

此 外 ,为 了 讨论 问题 方便 ,有 时 也 给 上 述 记 号 加 下 标 , 如 a ,bc,…',' 或 者 o ,By ，…， 
或 者 Al, Bi ,Ci ,… 等 扩大 标记 符号 。 


2.1.1 符号 串 集 合 的 运算 


这 里 主要 介绍 符号 串 集 (简称 串 集 ) 的 乘积 (又 称 联 结 ) 。 

设 串 集 A 二 {a ,oz，…},B 二 {Bi ,B:,…} ,那么 乘积 AB 定义 为 AB 二 {aBla€ A and BEB)。 
例如 , 设 A={a,b},B=={c,e,d), 则 AB={ac,ae,ad,bc,be,bd) ,可 见 串 集 的 乘积 仍然 是 串 集 ， 
串 集 的 自身 乘积 称 作 串 集 的 方 宕 。 

串 集 A 的 各 次 方 寒 定义 如 下 :A"={e) ,Al 王 A.…':'A" 王 AA1(n>>0)。 设 串 集 A 的 元 素 
有 mm 个 ,写作 |AI=m, 则 |A"|1=1,1A=m,…,| Al 一 m"。 

例如 : 设 A={a,b,c}, 则 A’={e},|A’|=1;A!={a,b,c},|A!'|=3;A?= {aa,bb,cc,ab, 
bc) |A’|=3:=9,.: 
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可 见 ,字母 表 A 的 n 次 方 寡 是 字母 表 A 上 所 有 长 度 为 n 的 串 集 。 


2.1.2 符号 串 的 前 级 、 后 级 及 子 串 


设 x 是 一 个 符号 串 ,我们 把 从 x 的 尾部 删 去 若干 个 (包括 0 个 ) 符 号 之 后 所 余下 的 部 分 称 
为 x 的 前 级 。 仿 此 ,也 可 定义 一 个 符号 串 的 后 级 。 例 如 ,车 x 二 abc, 则 ee,a,ab 及 abc 都 是 x 的 
前 级 ,而 e,c,bc 及 abc 都 是 x 的 后 级 。 若 x 的 前 级 (后 级 ) 不 是 x 的 本 身 , 则 将 其 称 为 x 的 真 前 
级 ( 真 后 级 )。 

从 一 个 符号 串 中 删 去 它 的 一 个 前 级 和 一 个 后 级 之 后 所 余下 的 部 分 称 为 此 符号 串 的 子 串 。 

例如 ,车 x==abcd, 则 8,a,b,c,d,ab,bc,cd,abc,bcd 及 abcd 都 是 x 的 子 串 。 可 见 ,x 的 任 
何 前 级 和 后 级 都 是 x 的 子 串 , 但 其 子 串 不 一 定 是 x 的 前 级 或 后 级 。 


2.1.3 字母 表 的 闭 包 与 正 闭 包 


字母 表 A 的 闭 包 是 字母 表 A 的 各 次 方 宕 之 并 , 记 作 A" ,A" 二 A"UA'UA?…, 其 含义 是 
由 A 上 符号 组 成 的 所 有 串 的 集合 (包括 空 串 s) 。 

如 果 不 包含 空 串 s 则 得 到 A 的 正 闭 包 ,用 A+ 表 示 , 即 A+ 二 A* 一 {e) ,其 含义 是 由 字母 表 
A 上 的 符号 组 成 的 所 有 串 ( 不 包括 空 串 s) 的 集合 。 而 语言 是 字母 表 上 符合 某 种 规则 的 语句 组 
成 的 ,所 以 字母 表 上 的 语言 是 字母 表 上 正 闭 包 的 子 集 。 


2.2 文法 与 语言 的 关系 


2.2.1 文法 的 直观 概念 


为 了 便于 理解 定义 文法 和 语言 时 所 采用 的 方式 ,我 们 不 妨 以 一 个 由 某 些 英语 单词 构成 的 
句子 为 例 来 讨论 。 

我 们 可 首先 将 “句子 ”作为 此 语言 的 第 一 个 语法 实体 ,并 用 如 下 的 语法 规则 加 以 描述 : 

(1) (句子 ):: = 二 (主语 ) (谓语 》 

(2) (主语 ):: = 二 (形容 词 )( 名 词 》 

(3) (谓语 ):: = (动词 )( 宾 语 》 

(4) (宾语 ): :一 (形容 词 ;( 名 词 》 

(5)〈 形 容 词 ): :一 young | pop 

(6)〈 名 词 ?: :一 men | music 

(7) (动词 ): 一 like 
其 中 ,每 个 尖 括 号 括 起 来 的 是 一 个 语法 成 分 ,属于 非 终 结 符 ;符号 “:: 二 ”相当 于 “一 ”, 其 含义 是 
“定义 为 ……”;“|” 是 “或 者 ”的 意思 。 这 7 个 式 子 称 为 文法 规则 。 

上 一 节 提 到 的 “ 某 种 规则 ”, 其 全 体 称 作 文法 ,用 文法 定义 语言 。 程 序 设计 语言 的 文法 与 自 
然 语 言 中 的 文法 含义 差不多 。 下 面 先 看 一 棵 自然 语言 的 语法 树 ( 见 图 2. 1)。 
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《句子 》 


(主语 ) ( 滑 二 ) 
TT 《名 词 》 了 《宾语 》 
ee We (形容 词 ) (台词 ) 
pop music 


图 2.1 自然 语言 语法 树 


这 是 一 棵 倒立 树 , 树 根 是 (句子 ;。 由 于 (句子 ) 可 以 由 (主语 )、( 谓 语 ) 组 成 , 故 可 以 表示 成 
(句子 ) 悦 (主语) (谓语 ) 这 条 规则 ,其 中 “一 " 读 作 “ 产 生 ”。 下 面 先 介绍 几 个 有 关 文 法 术语 的 概 
念 作为 进一步 讨论 的 基础 。 

(1) 非 终结 符 

由 尖 括 号 括 起 来 的 词 称 作 语 法 成 分 或 语法 实体 , 它 表 示 一 定 的 语法 概念 。 具 体 地 说 , 凡 出 
现在 规则 左 部 的 那些 符号 称 作 非 终结 符 。 非 终结 符 集 合用 Vx 表示 。 

(2) 终结 符 

语言 中 不 可 再 分 割 的 字符 串 ( 包 括 单个 字符 组 成 的 串 ) ,如 young,men,pop,… 它 们 是 组 
成 句子 的 基本 单位 。 终 结 符 集合 用 Vr 表示 。 

(3) 开始 符号 

《句子 ?是 一 个 特殊 的 非 终结 符号 , 它 表示 了 所 定义 的 是 什么 样 的 语法 范畴 ,如 果 这 里 定义 
了 《句子 ) ,开始 符号 就 是 (句子 ) ;如 果 定 义 的 是 (程序 ) ,开始 符号 就 是 (程序 ) 。 在 编译 中 定义 
这 些 ( 句 子 ), (程序 ),… 是 为 了 识别 这 些 语法 范畴 ,所 以 开始 符号 有 时 又 称 识别 符号 。 

(4) 产生 式 

产生 式 是 用 来 定义 符号 串 之 间 关 系 的 一 组 规则 (语法 规则 ) ,产生 式 形式 为 A 一 a, 其 中 ,第 
头 ( 在 Backus 范式 中 用 : := 表示) 左边 的 A 是 非 终结 符号 ,俗称 左 部 符号 ;箭头 右边 的 是 终 
结 符 , 非 终结 符 组 成 的 符号 串 ,又 称 产 生 式 右 部 。 所 以 A 一 a 是 关于 A 的 一 条 产生 式 规则 , 读 
作 A 产生 a 或 左 部 产生 右 部 。 

对 于 图 2. 1 的 语法 树 ,可 写 出 这 么 一 组 产生 式 规则 

(句子 ;一 (主语 )( 谓 语 》 
主语) 一 (形容 语 )( 名 词 》 
《谓语 一 (动词 (宾语 
(宾语 ) 悦 (形容词)( 名 词 ) 
(形容 词 ; 一 young | pop 
名词? 一 men | music 
(动词 ?一 like 

其 中 , (形容词 ?young|pop 产生 式 规 则 中 的 young,pop 称 作 右 部 的 候选 式 “| ?符号 读 作 
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“或 ?。 所 以 这 个 产生 式 读 作 形容词? 产生 “young” 或 者 "pop”。 

(5) 推导 与 归 约 

使 用 产生 式 的 右 部 取代 左 部 的 过 程 称 为 推导 ,反之 ,将 左 部 取代 右 部 的 过 程 称 作 归 约 。 每 
次 使 用 一 个 规则 以 其 右 部 取代 符号 串 的 最 左 非 终 结 符 称 作 最 左 推导 ,最 左 推导 的 逆 过 程 称 作 
最 右 归 约 。 


所 用 规则 
例如 ,句子 ?一 《主语 )( 谓 语 》 
一 (形容 词 ;( 名 词 )( 谓 词 ? 
一 young( 名 词 )( 谓 语 》 
一 young men《 谓 语 》 
一 young men( 动 词 )( 宾 语 》 
一 young men like( 宾 语 》 
一 young men like( 形 容 词 )( 名 词 》 
一 young men like pop( 名 词 》 


各 事 时 郑 
四 加 四 日 四 四 四 昌 日 
性 亏 计 知 


一 young men like pop music 


同样 ,可 以 采用 最 右 推导 , 即 每 次 使 用 一 个 规则 以 产生 式 右 部 取代 符号 串 最 右 非 终结 符 ， 
最 右 推导 的 逆 过 程 称 作 最 左 归 约 。 

最 左 推导 和 最 右 推导 统称 为 规范 推导 ;最 右 归 约 和 最 左 归 约 统称 为 规范 归 约 。 在 词法 分 
析 , 语 法 分 析 中 通常 采用 最 左 推导 或 最 左 归 约 。 

总 之 ,分 析 过 程 可 归纳 为 推导 和 归 约 两 种 方法 ， 

名 推 导 是 从 开始 符号 开始 ,通过 规则 的 右 部 取代 左 部 的 过 程 , 最 终 能 产生 一 个 语言 的 
何 子 。 

@ 归 约 是 从 给 定 源 语言 的 句子 开始 ,通过 规则 的 左 部 取代 右 部 的 过 程 ,最 终 到 达 开 始 


由 上 面 给 出 的 产生 式 , 当 通过 选择 不 同 候选 式 规范 推导 时 ,还 可 以 产生 如 下 许多 句子 : 
young music like pop men 
pop men like young music 


young men like young music 


这 些 句 子 都 是 按 规则 推导 出 来 的 ,当然 都 是 语法 上 正确 的 句子 ,只 不 过 在 语义 上 它们 不 为 
人 们 所 接受 而 已 ,所 以 它们 是 属于 没有 意义 的 语句 ,作为 程序 设计 语言 也 有 类 似 问题 。 

(6) 句 型 .句子 与 语言 

假定 G 是 一 个 文法 ,S 是 它 的 开始 符号 ,从 文法 的 S 开 始 ,每 步 推导 (包括 0 步 推导 ) 所 得 
到 的 字符 串 a 称 作 句 型 ,一 般 写 作 Sa, 其 中 aE(CVxUVz)* 。 仅 含 终结 符 的 句 型 称 作 句 子 。 
由 SS 开始 通过 1 步 或 1 步 以 上 推导 所 得 到 的 句子 集合 称 作 语言 (这 里 暂时 不 考虑 语义 ) , 记 作 
L(G): 

L(G)={alS $a, a€EVi} 
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(7) 文法 规则 的 递归 定义 
文法 规则 的 一 个 重要 特点 是 它 的 递归 定义 , 它 能 在 有 限 的 字母 表 上 利用 有 限 的 语法 规则 
生成 无 限 多 句子 的 集合 。 例 如 , 设 忆 ={0,1} ,语法 规则 是 : 
(整数 ) 一 (数字 ) (整数 ) | (数字 》 
(数字 ) 一 011 
采用 推导 分 析 , 可 以 反复 使 用 (数字 《整数 ?来 取代 《整数 ), 最 后 使 用 (数字 取代 (整数 ， 
然后 使 用 0 或 1 取代 (数字 ,这 样 便 获 得 一 个 任意 长 的 二 进 制 数字 串 。 从 上 面 的 规则 可 见 , 非 
终结 符 ( 整 数 ) 的 定义 中 包含 了 非 终 结 符 ( 整 数 ) 自 身 ,这 种 定义 方式 称 为 递归 定义 。 使 用 递归 
定义 时 必须 小 心 , 因 为 有 可 能 永远 产生 不 出 句子 。 
例如 ,语法 规则 : 
(整数 ) 一 (数字 ) (整数 》 (数字 ) 一 011 
是 无 用 的 。 无 论 你 使 用 什么 样 的 推导 也 产生 不 出 句子 ,这 是 因为 本 规则 没有 提供 结束 推导 的 
规则 。 而 前 一 规则 包含 了 一 个 出 口 规则 
(整数 ) 一 (数字 》 
它 提供 了 终止 递归 的 手段 。 
(8) 文法 规则 的 另 一 种 表示 法 
上 面 的 语法 规则 是 用 Backus 表示 法 (仅仅 在 表示 法 中 *:: = 二” 用 “一 ”代替 ) 表 示 的 ,有 时 还 
采用 扩充 的 Backus 表示 法 。 扩 充 的 Backus 表示 法 还 使 用 了 下 列 括号 。 
(i) 重复 次 数 的 指定 一 一 {”} 的 使 用 
例如 ,定义 (标识 符 ) 的 Backus 表示 法 是 
《标识 符 ) 一 (字母 ;| (标识 符 )(《 字 母 )| (数字 ) 
这 可 以 构成 任意 长 度 的 以 字母 开始 的 字母 .数字 串 。 如 果 现 在 要 求 定 义 的 标识 符 长 度 只 能 为 
1 一 6, 则 规则 表示 成 :标识 符 ) 一 (字母 ){( 字 母 )| (数字 ))s ,如 果 标 识 符 可 以 任意 长 ( 即 长 
度 三 1) , 则 不 用 上 下 角 标 的 数字 指明 ,直接 写成 :( 标 识 符 ) 习 (字母 ){( 字 母 )| (数字 )} 。 
(Gii) 任 选 符号 一 一 [”] 的 使 用 
当 规 则 中 某 符号 至 多 出 现 一 次 , 则 用 *[” 与 J" 将 该 符号 括 在 里 面 ,这 表示 可 以 选 也 可 不 选 
这 个 符号 。 例 如 ,《 整 数 ) 一 [十 | 一 ]( 数 字 ){( 数 字 )} 表 示 整 数 是 由 可 带 符 号 或 不 带 符号 的 数字 
串 组 成 。 
(Ciii) 提 因 子 符号 一 一 (”) 的 使 用 
当 规 则 右 部 的 若干 候选 式 中 有 公共 因子 时 ,允许 外 提 , 将 不 同 部 分 留 在 “(” 与 “)” 内 。 例 
如 ,规则 


U—>aX|aYlaZ 
可 改写 成 U-~a(XIY|Z)。 注 意 , 若 圆 括号 内 不 含 若干 候选 项 ,例如 CE) , 则 圆 括号 为 终结 符 。 
(9) 元 语言 符号 
上 面 的 文法 规则 表示 法 中 ,除了 终结 符 和 非 终 结 符 外 还 有 一 些 其 他 符号 ,如 “一 ”和 “|”, 与 
扩充 的 Backus 表示 法 中 各 种 括号 等 ,它们 是 用 来 说 明文 法 符号 之 间 关 系 的 , 称 之 为 元 语言 


(meta language) 符 号 。 


2.2.2 文法 与 语言 的 形式 定义 

Chomsky 对 文法 进行 分 类 ,将 文法 分 为 0 型 .1 型 .2 型 .3 型 等 四 种 类 型 ,其 文法 差别 在 于 
对 产生 式 施加 的 限制 不 同 。 

Chomsky 将 文法 G 定义 为 四 元 组 G= 二 (Vy ,Vr,P,S) ,其 中 : 

Vy 一 一 非 终 结 符号 集合 ; 

V1 一 一 终结 符号 集合 ; 

P 一 一 产生 式 的 有 穷 集 合 ,产生 式 的 一 般 形 式 为 a 一 B; 

S 一 一 文法 开始 符号 ,SE VN 。 

为 了 讨论 方便 , 令 V=(Vw UVz), 称 作文 法 符号 的 集合 。 

定义 :对 文法 G 的 PP 产生 式 加 上 如 下 第 i 条 限制 ,就 得 到 第 i 型 文法 : 

0.P 中 产生 式 a 一 B, 其 中 aEV1+ 并 至 少 含有 一 个 非 终 结 符 ,BEV* ; 

1.P 中 产生 式 a 一 B, 除 可 能 有 Se 外 均 有 |B| 宇 la| , 若 有 S-~e, 规 定 S 不 得 出 现在 产生 式 
右 部 ,或 者 

1'.P 中 产生 式 a>B, 除 可 能 有 S->s 外 有 aAB>ayB, 其 中 a,BEV* ,AGEVN,YEV+; 

2.P 中 的 产生 式 具 有 形式 A 一 B, 其 中 AEVw,BEV'; 

3.P 中 的 产生 式 具 有 形式 A 一 aB,A 一 a, 或 者 A 一 Ba,A 一 a, 其 中 A,BEVy,a€ Vi。 

从 上 面 的 定义 可 见 0 型 文法 限制 条 件 最少 ,3 型 文法 限制 条 件 最 多 ,所 以 0 型 文法 强 于 1 
型 文法 ,1 型 强 于 2 型 ,2 型 强 于 3 型 。 或 者 说 0 型 文法 包含 1,2,3 型 文法 ;1 型 文法 包含 2,3 
型 ;2 型 文法 包含 3 型 文法 。 

定义 :i 型 文法 生成 的 语言 称 为 i 型 语言 , 记 作 L(G) ,L(G)= {wlw€Vi 且 S 羡 wo}， 

0 型 文法 又 称 短 语文 法 ,有 时 也 称 无 限制 文法 ,因为 它 对 产生 式 几 乎 没有 限制 ; 

1 型 文法 又 称 长 度 增加 文法 ,可 以 证 明 1 型 与 1' 型 是 等 价 的 ,由 1' 型 文法 可 见 A 能 推导 出 
Y 是 在 a,B 这 个 上 下 文 环境 下 才能 完成 的 ,所 以 又 称 作 上 下 文 有 关 文 法 ,写作 CSG( 它 是 Con- 
text-Sensitive Grammar 的 缩写 ); 

2 型 文法 又 称 上 下 文 无 关 文法 , 记 作 CFG( 它 是 Context-Free Grammar 的 缩写 ); 

3 型 文法 又 称 正 规 文 法 , 右 线 性 文法 或 左 线性 文法 , 记 作 RG( 它 是 Regular Grammar 的 缩 
写 )。 

识别 0 型 语言 的 自动 机 称 作 图 灵机 (TM) ,识别 1 型 语言 的 自动 机 称 作 线性 界限 自动 机 
(LBA) ;识别 2 型 语言 的 自动 机 称 作 下 推 自动 机 (PDA) ;识别 3 型 语言 的 自动 机 称 作 有 限 状态 
自动 机 (FA)。 程 序 设计 语言 的 语法 和 词法 规则 主要 与 上 下 文 无 关 文 法 和 正规 文法 有 关 , 所 以 
与 它们 相应 的 识别 自动 机 是 下 推 自动 机 与 有 限 状 态 自动 机 ,这 两 类 自动 机 将 在 后 面 有 关 章 节 
中 详细 讨论 ,而 图 灵机 与 线性 界限 自动 机 已 超出 本 书 范围 ,不 作 介绍 。 文 法 的 Chomsky 分 类 
表 见 表 2. 1。 


18 


表 2.1 文法 的 Chomsky 分 类 表 
文法 名 称 语言 名 称 自动 机 名 称 


短语 文法 递归 可 枚 举 语 言 图 灵机 


上 下 文 有 关 文法 上 下 文 有 关 语言 线性 界限 自动 机 
上 下 文 无 关 文 法 上 下 文 无 关 语言 下 推 自动 机 
正规 文法 正规 语言 有 限 状 态 自动 机 


下 面 举 一 些 有 关 这 四 种 类 型 文法 的 例子 ,并 指出 它 所 能 产生 的 语言 是 什么 。 
[ 例 2.1] 设 G 一 ({S}),{a,b},P,S) 
其 中 P:(0) SaS 
(1 S-=a 
《2 Sb 
显然 这 是 3 型 文法 (当然 也 属于 0,1,2 型 文法 一 一 以 下 相同 处 ,不 另 加 说 明 ) , 它 所 能 产生 
的 语言 是 什么 呢 ? 若 选 (0) 号 产生 式 ,由 于 它 是 递归 定义 ,所 以 利用 (1)、(2) 产 生 式 作为 出 口 规 
则 以 终止 递归 ,这 样 它 可 产生 的 语言 是 {ai(alb)|i 宇 1} ;车 仅 选 (1)、(2) 产 生 式 , 它 可 产生 的 语 
言 是 {alb}。 所 以 Gi 产生 的 语言 
L(G1)={ai(alb)li21}U {alb}= {ai(alb)|i>0} 
[ 例 2.2] 设 Gs=({S},{a,b},P,S) 
其 中 P:(0) S>aSb 
(1) S-~ab 
这 是 2 型 文法 ,其 中 (0) 式 是 递归 定义 。 若 选 (0) 式 ,因为 非 终 结 符 S 可 以 多 次 地 由 右 部 取 
代 , 并 利用 (1) 式 作为 出 口 规则 以 终止 递归 ,当然 它 产 生 的 语言 是 {arb"|n 之 2); 若 仅 选用 (1) 
式 , 它 产生 的 语言 是 {ab}。 所 以 文法 产生 的 语言 可 表示 为 L(G,)=={a"*b"|n 宇 1)。 
再 来 看 ,利用 推导 过 程 究竟 能 推出 什么 句子 。S->aSb 一 aaSbb 一 …-~>anb", 它 推出 的 是 a 
的 个 数 与 b 的 个 数 完全 相等 的 串 。 其 中 非 终结 符 S 具 有 自 岩 套 特性 ,所 以 又 称 G 是 自 符 套 
的 上 下 文 无 关 文 法 。2 型 文法 扣除 正规 文法 部 分 本 质 上 是 自 嵌 套 的 ,或 者 说 ,任何 2 型 文法 如 
不 包含 自 拭 套 性 质 ,就 等 价 于 正规 文法 。 
[ 例 2.3] 设 Gs=({S,A,B}),{a,b},P,S) 
其 中 P: (0) SAB 
(1) S>Ba 
(2 A~=as 
(3) A 一 a 
(4) B>BS 
(5) B>bA 
(6) B>b 
这 仍然 是 2 型 文法 。 产 生 式 (4) 是 直接 递归 定义 的 ,而 产生 式 (0) 虽 没有 直接 递归 定义 ,但 
若 它 与 (2) 式 一 起 考虑 ,显然 它们 是 间接 递归 定义 的 。 该 文法 产生 的 语言 不 容易 用 简单 形式 表 
示 。 但 根据 语言 的 定义 ,从 文法 开始 符号 开始 利用 规则 能 推导 出 的 句子 都 属于 该 文法 的 语言 ， 
比如 :SAB-~aSB-~>aBaB-~abaB-~abab 或 S-~Ba-~BSa-~bASa-~baSa-~baBaa-~babaa。 
19 


上 面 推导 时 选择 的 候选 式 是 任意 的 ,所 以 产生 的 句子 可 能 很 多 ,但 它们 都 属于 Gs 的 语 
言 。 如 果 已 知 有 个 句子 , 问 该 句子 是 否 属于 该 文法 的 语言 ? 这 里 只 能 用 试探 法 。 如 果 由 该 文 
法 能 推出 ,就 是 ,否则 不 是 。 显 然 试探 法 不 是 好 方法 ,应 寻找 一 种 有 效 的 方法 ,这 就 是 本 书 要 介 
绍 的 重点 内 容 。 
[ 例 2. 4] 设 文法 Gs==({S,A,B},{a,b,c},P,S) 
其 中 P: (0) SaSAB 
《1 .S-*»abB 
(2) BA 一 AB 
(3) bA 一 bb 
(4) bB-~bc 
(5) cB-~cc 
这 是 1 型 文法 ,因为 存在 左 部 不 是 一 个 非 终 结 符 的 规则 ,而 且 有 | 左 | 三 | 右 | , 即 长 度 增加 
文法 。 可 能 有 人 认为 它 不 像 上 下 文 有 关 文 法 。 对 此 ,把 (2) 式 BA 一 AB 改造 成 如 下 三 个 产生 
式 :(2.1) BA 一 BC,(2.2) BC 一 AC,(2.3) AC 一 AB, 其 中 C 是 新 引进 的 非 终 结 符 。 改 造 之 
后 ,文法 与 原先 的 等 价 ,但 改造 之 后 的 文法 与 上 下 文 有 关 文法 的 定义 相 吻 合 ,所 以 G4 为 上 下 
文 有 关 文 法 。 
该 文法 生成 什么 样 的 语言 也 不 易 看 出 来 ,让 我 们 推导 几 个 句子 看 看 吧 : 
S-~aSAB-~~aabBAB->~aabABB->~>aabbBB->~aabbcB-~aabbcc 
S-~abB-~abc 
S-~aSAB-~aaSABAB~>~aaabBABAB->~>aaabABBAB->~aaabbBBAB->~aaabbBABB 
一 aaabbABBB->~aaabbbBBB-~aaabbbcBB->~aaabbbccB->~aaabbbccc 


可 见 , 由 Gs 文法 生成 的 语言 是 L(Gs)=={a"b"e"|n 宇 1}。 这 意味 着 生成 a 的 个 数 、b 的 个 
数 、c 的 个 数 相等 的 串 必须 用 1 型 文法 才能 产生 。 比 如 生成 任何 长 度 的 等 边 三 角形 ,必须 使 用 
1 型 文法 。 

在 程序 设计 语言 中 也 存在 一 些 语句 需要 使 用 上 下 文 有 关 文 法 的 例子 ,比如 标号 的 定义 与 
引用 。 由 于 有 规则 (标号 ?一 (标识 符 ) 的 存在 ,在 分 析 的 过 程 中 可 以 把 (标识 符 > 直 接 归 约 成 ( 标 
号 ,但 这 必须 在 标识 符 之 后 跟 * :”( 定 义 性 标号 ) 或 保留 字 GOTO 之 后 跟 标识 符 ( 引 用 性 标号 ) 
的 环境 下 才能 归 约 。 也 即 更 恰当 的 规则 应 该 写作 CSG 形式 : 

〈 标 号 :一 (标识 符 : 
或 
GOTO( 标 号 ;> 一 GOTO( 标 识 符 》 
[ 例 色 林 设 G;=(C{S,A,B,C,D;E},{0,1};,P,S) 


其 中 P: (0) S>ABC (1) AB->0AD 
(2) AB™>1AE (3) AB—>e 
(4) DO~>0D (5) DI™>1D 
(6) E0—>0E (7) El1™>1E 
(8) Ce (9) DC—>BOC 
(10) EC—>BI1C (11) 0B—>BO 
(12) 1B->B1l 
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Gs 文法 的 产生 式 cgB 有 uaEV- ,BEV” ,所 以 它 是 0 型 文法 。 该 文法 产生 的 语言 L(Gs) 
可 表示 为 L(G;) 二 {ww|lw€ (0,1)*), 也 就 是 说 它 可 以 生成 前 后 两 个 完全 相同 的 串 。 这 在 程序 
设计 语言 中 也 经 常见 到 , 壁 如 变量 名 的 说 明 与 使 用 , 形 参 与 实 参 的 一 一 对 应 等 。 由 于 这 些 功 能 
必须 用 0 型 文法 产生 ,必须 用 图 灵机 才能 识别 ,实现 起 来 困难 比较 大 ,所 以 宁可 将 它 留 到 语义 
分 析 阶 段 去 解决 。 

在 词法 分 析 和 语法 分 析 中 仅 讨论 上 下 文 无 关 文 法 (CFG) 和 正规 文法 (RG) ,并 且 还 对 产生 
式 加 了 两 点 限制 : 

a. 不 存在 P>P 产生 式 , 因 为 它 的 存在 除了 增加 二 义 性 外 没有 任何 用 处 ; 

b. 产生 式 中 出 现 的 非 终 结 符 P 必须 是 可 达 的 ,并 且 能 推出 终结 符 串 , 即 存在 S caPB， 
P 羡 y,yYEVf ,a,BEV', 

如 不 满足 这 两 点 要 求 , 应 先 改写 文法 ,使 之 满足 要 求 。 这 种 文法 又 称 化 简 了 的 文法 。 另 
外 ,为 了 简洁 起 见 , 今 后 在 表示 文法 时 只 写 出 产生 式 序列 而 不 再 列 出 四 元 组 ,并 规定 第 一 个 产 
生 式 左 部 的 符号 为 开始 符号 。 


2.3 文法 构造 与 文法 简化 


2.3.1 由 语言 构造 文法 的 例子 


在 某 些 情况 下 ,人 们 以 某 种 形式 给 出 有 关 语 言 的 描述 ,如 何 为 此 语言 构造 一 个 文法 使 得 它 
生成 的 语言 正好 满足 这 个 语言 的 描述 呢 ? 如 果 能 够 构造 ,那么 这 将 加 深 我 们 对 文法 与 语言 关 
系 的 理解 ,也 加 深 对 文法 分 类 的 理解 。 这 里 以 例子 形式 给 出 ,并 仅 限 于 讨论 构造 3 型 文法 和 部 
分 2 型 文法 。 

[ 例 2. 6] 设 L={a*b*|n 宇 1 且 a,bEVr}, 试 构造 生成 Li 的 文法 Gi。 

解 : 设 n==1,2,…, 则 Li 的 句子 为 aab,aaaabb,… ,每 个 句子 a 的 个 数 总 比 b 的 个 数 多 一 
倍 。 当 n=1 时 直接 用 产生 式 S>aab, 当 n 之 2 时 句子 的 串 长 总 是 以 |aab|=3 增长 的 ,因此 , 写 
成 递归 定义 的 产生 式 :S>aaSb。 所 以 构造 出 的 文法 Gi 的 产生 式 P 为 : 

(0) S>aaSb 
(1) S—>aab 

[ 例 2.7] 设 Ls=={aibic:|i,j,k 宇 1 且 a,b,cEVr}, 试 构造 生成 L 的 文法 G; 。 

解 :这 是 由 a,b,c 字母 组 成 的 串 , 其 中 a,b,c 的 数目 分 别 大 于 等 于 1, 且 a 排 在 前 面 ,b 居 
中 ,c 为 串 尾 ,可 以 构造 3 组 产生 式 分 别 生成 ab,c 串 。 所 构造 的 文法 Gs 的 产生 式 P 为 ; 

(0) S>aSlaB 

(1) B>bB|bA 

(2) A>cAlc 
其 中 ,(0) 式 是 用 于 产生 a 的 串 ,车 要 获得 n 个 a 的 串 , 便 使 用 SaS 产生 式 进行 n 一 1 次 递归 
取代 ,最 后 使 用 S>aB 产生 式 的 右 部 取代 结束 递归 。 同 样 ,(1) 式 用 于 产生 b 的 串 ,(2) 式 用 于 
产生 c 的 串 。 

[ 例 2.8] 设 Ls 二 {wlw€E (a,b)* 且 w 中 含有 相同 个 数 的 a 和 b}, 试 构造 生成 L 的 文 
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法 Ga 。 
解 : 由 于 Ls 中 允许 包含 空 串 , 所 以 有 产生 式 (0) Ses。 串 w 可 以 是 a 打头 ,也 可 以 是 b 打 
头 , 所 以 还 应 有 如 下 产生 式 :(1) S>aA 和 (2) S-~~bB。 其 中 ,A,B 为 非 终结 符 , 表 示 串 w 的 余 
下 部 分 ,A 推出 的 串 中 a 的 个 数 应 比 b 的 个 数 少 1。 同 样 地 ,B 推出 的 串 中 b 的 个 数 应 比 a 的 
个 数 少 1。 在 给 出 A( 或 B) 产 生 式 时 一 方面 应 满足 上 述 要 求 , 另 一 方面 应 该 有 出 口 产 生 式 , 有 
递归 定义 产生 式 , 同 时 还 允许 继续 以 a 打头 。 因 此 可 以 给 出 关于 A 的 如 下 产生 式 : 
(3) A—>b 
(4) A—>bS 
(5) A 一 aAA 
其 中 ,(4) 式 的 作用 是 由 S 推出 的 符号 串 中 ,a 与 b 个 数 已 相等 ,但 串 长 还 不 满足 句子 的 要 求 时 
应 从 S 开始 重新 推导 , 即 递 归 推 导 。(5) 式 表示 , 若 还 是 a 打头 ,表示 串 中 少 两 个 b, 所 以 a 后 应 
跟 两 个 A。 关 于 B 的 产生 式 也 可 用 类 似 方法 写 出 。 
最 后 得 到 Gs 的 产生 式 P 如 下 (已 将 (3) A 一 b,(4) A 一 bS 合并 成 A 一 bS 一 条 ,有 关 B 产 
生 式 也 做 类 似 合 并 ) : 
(ODS=we (4) A 一 aAA 
(1) S>aA (5) B—>aS 
(2) S>bB (6) B>bBB 
(3) A—>bS 
当然 也 可 以 使 用 能 入 式 , 将 Ls 语言 写成 G'; 文法 。 其 中 卫 ' 为 : 
(0) Se 
(1) S>aSbS 
(2) S>bSaS 
对 文法 G'3 的 产生 式 必须 从 递归 定义 上 加 以 理解 。 
[ 例 2.9] 设 =={w|w€E(0,1)* 且 w 中 1 的 个 数 为 偶数 }, 试 构造 文法 G4。 
解 :实际 上 ,这 是 一 个 包含 有 偶数 个 1 的 二 进 制 数字 串 ( 包 括 空 串 ) ,所 以 有 产生 式 
(0) S->~s 
串 @ 可 以 是 0 打头 ,但 0 的 个 数 不 加 限制 ,所 以 有 递归 产生 式 (1) S~~0S。 串 s 也 可 以 是 1 打 
头 , 这 时 应 有 产生 式 (2) S~~1A, 其 中 A 是 非 终结 符 , 表 示 o 的 余下 部 分 必须 有 一 个 1 ,当然 夹 
进 多 少 个 0 也 不 加 限制 。 所 以 ,A 的 产生 式 应 该 是 : 
(3) A 一 0A 
(4) A—1S 
其 中 ,(4) 式 表示 字符 串 wo 已 经 是 偶数 个 1, 但 串 长 还 不 一 定 满足 要 求 。 因 此 , 回 到 S 重新 推 
导 。 最 后 得 到 G 的 产生 式 P 如 下 : 


(0) Se (3) A 一 0A 
(1) S—>0S (4) A 一 1S 
(C271 


2. 3.2 文法 的 简化 


由 例 2.8 可 知 ,同一 语言 可 用 不 同 的 文法 来 描述 。 直 观 上 看 ,当然 应 当选 择 产生 式 的 个 数 
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最 少 ,最 符合 语言 特征 的 来 描述 。 因 此 , 写 出 的 文法 要 求 简化 ,去 掉 多 余 的 产生 式 。 如 果 文 法 
中 某 个 产生 式 在 推导 过 程 中 永 不 被 使 用 ,或 不 能 从 中 导出 终结 符 串 的 话 , 则 称 该 产生 式 是 多 余 
的 。 另 外 形 如 P->P 的 产生 式 对 推导 也 不 起 作用 ,也 是 多 余 的 。 对 于 多 余 的 产生 式 应 予以 删 
除 。 所 谓 “ 永 不 被 使 用 的 产生 式 ” 表 示 该 产生 式 左 部 的 非 终 结 符 是 不 可 达 的 。 因 此 ,可 以 拟定 
一 个 简单 算法 来 找 出 这 些 多 余 的 产生 式 。 下 面 举 一 例 说 明 如 何 寻 找 。 

[ 例 2. 10] 化 简 下 述 文法 ,删除 无 用 产生 式 。 


(0) SBe 《5)》B 一 Ce 
《和 站 -也 (6) BAf 
(2) A 一 Ae (7 
(3) A 一 e (8) D>{ 
(4) A 一 A 


解 :首先 寻找 有 无 形 如 P->P 的 产生 式 , 有 ,产生 式 (4) 就 是 ,可 以 删 掉 。 其 次 寻找 有 无 不 
可 达 的 非 终结 符 ,发现 D 是 不 可 达 的 ,因为 从 S 开 始 任何 通路 的 推导 都 到 达 不 了 D, 所 以 (8) 式 
也 可 删 。 再 看 是 否 有 非 终结 符 不 能 导出 终结 符 串 ,发 现 EC 都 导 不 出 终结 符 , 所 以 凡是 包含 
有 EC 的 产生 式 (不 管 是 左 部 还 是 右 部 ) 统 统 删 掉 。 所 以 ,(1)、(5)、(7) 式 被 删除 , 剩 下 的 产生 


式 重新 编号 得 : 
(0) S>Be (2) A 一 Ae 
(1) BAf (3) A 一 e 


上 面 为 Ls 语言 写 出 的 两 个 文法 (Gs ,Gs) ,它们 都 已 化 简 了 ,尽管 Gs 的 条 数 多 于 G4 ,但 用 
上 面 的 算法 G, 是 化 简 不 到 Gs; 的。 


2. 3.3 ”构造 无 产生 式 的 上 下 文 无 关 文 法 


在 有 些 语 法 分 析 中 要 求 无 s 产 生 式 的 上 下 文 无 关 文 法 ,如 何 把 一 个 含有 s 产生 式 的 上 下 
文 无 关 文法 改造 成 无 s 产 生 式 的 文法 ? 
首先 ,定义 无 es 产生 式 文 法 必须 满足 两 个 条 件 : 
(1) 如 果 P 中 含 S>s, 则 S 不 出 现在 任何 产生 式 的 右 部 ,其 中 S 为 文法 的 开始 符号 ; 
(2) P 中 不 再 含有 其 他 任何 8 产生 式 。 
设 G=(VN,Vr,P,S) 是 含 s 的 文法 ,G'==(V'w,Vr,P',S') 是 与 G 等 价 的 无 s 的 上 下 文 无 
关 文法 。 从 G 到 G- 的 变换 算法 如 下 : 
(1) 由 文法 G 推出 满足 如 下 定义 的 非 终结 符 集合 ; 
Vo={A|IAEVy BASe} 
(2) 再 按 下 述 步 又 构造 G' 产 生 式 集合 P'。 
(a) 若 产生 式 BaoBiaiBo… Bios 属于 P, 其 中 EV* (0 过 jk) ,BE Vo, 那么 将 这 些 Bi 
以 :或 B 本 身 的 两 种 形式 替代 ,然后 将 有 关 B 的 所 有 产生 式 扣除 s 产 生 式 后 加 入 到 P' 中 ; 
(b) 不 满足 Ca) 的 P 中 其 他 产生 式 扣除 s 产 生 式 后 也 投入 到 了 ' 中 ; 
(c) 如 果 P 中 有 产生 式 Se, 则 将 它 扣 除 并 在 P' 中 增加 如 下 产生 式 : 
S'—>elS 
其 中 ,S' 是 新 增加 的 开始 符号 (当然 不 会 出 现在 任何 产生 式 的 右 部 ), 将 它 加 入 非 终 结 符 集合 
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Vn, 使 得 Vy 变 成 VAN3; 否 则 ,VAN 一 VN,S' 一 S。 

[ 例 2. 11] 设 文法 G1 二 ({S},{a,b},P,S) ,产生 式 P 如 下 ,请 改造 成 无 产生 式 的 文法 。 
C(O) Se 
(C1) SaSbS 
(2) .SHSaS 

解 :(1) Vo=={S} 
(2) P' : S>aSbS|abS|aSblab 

S—>bSaS|baS|bSa| ba 


SI 
S 一 S 

所 以 改造 之 后 文法 G'1=({S',S},{a,b},P',S') 
P's SelS 


S—>aSbSlabS|aSblab 
S—>bSaS|baS|bSalba 
[ 例 2. 12] 文法 Gs 有 如 下 产生 式 P, 请 改造 成 无 s 产 生 式 的 文法 。 
(0) S™>aS|bB 
(1) B>bBlcA 


(2) A—>cAle 
解 :(1) Vo= 二 {A} 
(2) P': A—cAlc 
B>cAlc 
BbB 
S—>aS|bB 
所 以 改造 之 后 文法 G',=({S,B,A}),{a,b,c},P',S) 
P': S>aS|bB 
B>bBlcAlc 
A>cAlc 


2.4 语法 树 与 文法 的 二 义 性 


2.4.1 语法 树 


在 本 章 的 开始 ,我们 用 一 棵 倒立 的 树 结构 来 表示 自然 语言 的 句子 结构 (图 2. 1)。 这 棵 树 
称 为 语法 树 。 在 程序 设计 语言 中 也 经 常用 语法 树 来 描述 句子 结构 ,用 它 来 反映 语法 分 析 过 程 
显得 直观 ,形象 。 此 外 ,用 它 来 判定 文法 的 二 义 性 也 非常 方便 。 

设 有 一 个 2 型 文法 G==({S,A,B),{a,b),P,S), 其 中 PP: 

(0) S>aB (4) A>bAA 
(GD SA (5) B>aBB 
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(2) 人 -=a (6) B-bS 
(3) A 一 aS (7) B>b 
假定 采用 最 左 推导 ,并 生成 句子 aabbab, 则 其 推导 过 程 如 下 : 


-一 SS 
SaB—>aaBB—>aabSB—>aabbAB—>aabbaB—>aabbab a B 
按 此 推导 序列 构造 (图 2.2) 语 法 树 ( 其 中 国 结 点 加 圈 是 为 了 六 
下 面 说 明 方便 ) 。 语 法 树 是 一 棵 倒立 树 , 根 在 上 方 , 根 结 点 的 标记 /AN | 
就 是 文法 的 开始 符号 S; 叶 在 下 方 。 树 上 的 每 一 结 点 标记 都 是 ZR 
V(=VnwUVr) 中 的 一 个 符号 。 对 应 于 L(G) 中 的 句子 必定 至 少 存 b A 
在 一 棵 语法 树 。 | 
下 面 引进 关于 语法 树 的 五 个 术语 : 国生 2 人 生计 Dbab 
(1) 子 树 一 一 语法 树 中 除了 叶 结 点 (没有 子孙 的 结 点 ) 以 外 的 用 汪汪 得 


任意 一 个 结 点 连同 它 的 所 有 的 子孙 结 点 构成 一 棵 子 树 。 

(2) 修剪 子 树 一 一 指 前 去 除 子 树 根 以 外 的 其 余部 分 (注意 车 有 分 叉 树 ,不 能 只 剪 一枝， 
要 几 枝 一 起 前 ) ,该 子 树 根 成 了 语法 树 的 新 的 末端 符 , 这 就 是 指 归 约 。 若 修剪 的 是 子 树 根 的 
直接 后 代 , 就 是 按 产生 式 进行 直接 归 约 ; 若 修剪 的 是 所 有 后 代 , 那 是 指 执行 1 步 或 1 步 以 上 
的 归 约 。 

(3) 句 型 由 树 的 末端 符 ( 叶 结 点 也 称 作 末端 符 ) 从 左 至 右 连 成 的 串 是 该 文法 的 一 个 句 
型 。 这 里 对 句 型 的 定义 与 2. 2. 1 节 中 对 句 型 的 定义 是 一 回 事 ,前 者 从 推导 和 角度 考虑 ,这 里 从 归 
约 ( 修 剪 语法 树 ) 角 度 考虑 。 

(4) 短语 子 树 的 末端 符 自 左 至 右 连 成 的 串 , 相 对 于 子 树 根 而 言 称 之 为 短语 。 确 切 地 
说 ,如 果 文 法 存在 如 下 推导 : 

S 二 uaAB 羡 ayB，S,AEVN apB,yYECVNUVr) 
其 中 ,A 为 子 树 根 , 则 A 广 y 中 任意 一 步 推导 所 得 的 串 7 都 称 作 A 的 短语 。 如 果 考 虑 图 2. 2 
中 的 加 为 子 树 根 , 则 bS$,bbA,bba 都 是 加 的 短语 。 如 果 短 语 是 由 某 子 树 根 经 过 1 步 推导 而 获 
得 , 则 称 它 为 该 子 树 根 的 简单 短语 ,又 称 直接 短语 。 

名 型 的 短语 是 指 该 句 型 中 哪些 符号 串 可 构成 某 子 树 根 的 短语 。 对 图 2. 2 中 aabbAB 这 个 
句 型 , 则 bA( 相 对 于 S) ,bbA( 相 对 于 @@) ,abbAB( 相 对 于 B) 和 aabbAB( 相 对 于 树 根 S) 是 该 名 
型 的 所 有 短语 。 

对 于 文法 中 的 每 一 个 句子 都 必定 有 最 左 和 最 右 推导 ,但 对 于 一 句 型 来 说 , 则 不 尽 然 , 如 ， 

S>aB>aaBB—>aabSB—>aabbAB—>aabbAb 


显然 ,推导 S 广 aabbAb, 即 非 最 右 推导 , 亦 非 最 左 推导 。 故 句 型 Ss 
既 不 可 能 是 左 句 型 ,也 不 可 能 是 规范 句 型。 人 

(5) 句柄 一 句 型 中 最 左 简 单 短语 。 这 里 讲 的 句柄 就 是 最 ”7 | SS 
左 归 约 时 所 要 寻找 的 简单 短语 .将 它 用 产生 式 左 部 进行 取代 ,以 as _ 十、 
完成 最 左 归 约 过 程 。 如 果 一 个 句子 的 语法 树 已 经 构造 好 ,那么 b A bb @ 
每 次 归 约 时 寻找 句柄 是 很 容易 的 。 我 们 重 画 图 2. 2 为 图 2. 3 的 os 
形式 .第 一 次 寻找 的 句柄 是 中 , 当 它 被 归 约 (修剪 ) 之 后 ,第 二 次 a\O 


寻找 的 句柄 是 四 …… 最 后 一 次 寻找 的 句柄 是 @ , 当 它 归 约 之 后 图 2.3 归 约 过 程 句柄 
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到 达 树 根 结 点 S, 则 说 明 该 句子 是 正确 的 句子 。 这 些 编号 所 对 应 的 直接 短语 就 是 归 约 过 程 中 
所 要 寻找 的 句柄 。 

如 果 给 定 的 句子 按 上 述 过 程 不 能 归 约 到 达 开 始 符号 S, 则 说 明 该 句子 是 错 的 。 实 际 上 ,在 
语法 分 析 时 找 句 柄 并 不 那么 容易 ,我们 将 在 第 5 章 以 后 详细 介绍 它 。 


2.4.2 文法 的 二 义 性 
定义 :如 果 文 法 的 一 个 句子 存在 对 应 的 两 棵 或 两 棵 以 上 的 语法 树 , 则 该 句子 是 二 义 的 , 包 
会 二 义 句 子 的 文法 是 二 义 文法 。 
例如 , 设 有 表达 式 文法 G(E): 
E>E+E|IE* E|(E)|i 
其 中 ,Vy 二 {EFE) ,Vr 二 {十 , * ,(,),i} ,i 是 变量 或 常数 。 设 现 有 文法 的 一 个 句子 (ix i 十 D, 它 可 
由 两 种 不 同 的 最 左 推导 而 得 : 
1) E>(E)>(E+E)>(Ex EE)>(ix* EE >(ix*it+E) >(ix*iti) 
2) E->(E) 一 (Ex*E)-(ixE)- 一 (ix 下 十 E)-(ixi 十 E)->(ixi 十 iD 
相应 的 语法 树 也 有 两 棵 ( 见 图 2.4(a) 与 (b) ) 。 
可 见 GCE) 是 二 义 文法 ,Cix i 十 D 是 二 义 句子 。 从 两 棵 不 同 语法 树 可 见 , 它 们 归 约 的 句柄 
次 序 也 不 相同 ,图 2.4(a) 树 包含 “* ”的 句柄 在 先 ,图 2.4(b) 树 包含 “十 ”的 句柄 在 先 ,也 即 图 
2.4(a) 树 先 归 约 包含 “* ”运算 符 的 句柄 ( 即 先 做 * ”法 运算 ) ,图 2.4(b) 树 先 归 约 包含 “十 ” 运 
算 符 的 句柄 ( 即 先 做 “十 ?法 运算 ) 。 因 此 , 它 给 语法 分 析 带 来 不 确定 性 。 如 果 能 控制 文法 的 二 
义 性 , 即 加 入 人 为 的 附加 条 件 ,那么 二 义 文法 的 存在 并 不 是 坏事 ,这 将 在 第 6 章 介 绍 。 


E E 
es 本 
2 | | > 个、 


BEB * ®B 
| | 
1 1 
四 四 


2.4 语句 (ix i 十 让 对 应 的 两 棵 语法 树 


为 了 便于 语法 分 析 ,希望 文法 是 非 二 义 性 的 ,也 就 是 说 希望 能 找到 一 个 非 二 义 文 法 ,使 得 
它 生成 的 语言 与 二 义 文法 生成 的 语言 等 价 。 但 这 并 不 一 定 都 能 找到 ,因为 存在 先天 性 二 义 的 
语言 。 对 于 G(E) 文 法 可 找到 与 之 等 价 的 非 二 义 文法 如 下 : 
E>TI|E+T 
T>F|ITxF 
F—>(E)|i 
使 用 这 种 文法 对 于 上 面 的 句子 只 有 一 种 最 左 推导 过 程 : 
E>T>F>(E)>(E+T)>(T+T)>(Tx*xF+T)>(F*F+T)>(ix*F+T) 
>(ixi+T)>(ixiF)>(ix*iti) 
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对 应 的 语法 树 也 只 有 一 棵 , 见 图 2. 5。 从 语法 树 看 ， i 
没有 二 义 性 ,是 “ ”的 层次 总 比 "十 "的 层次 来 得 低 , 即 包含 x* ”的 
句柄 总 是 先 归 约 ,这 相当 于 表达 式 计算 时 “* ”运算 符 的 优先 级 总 是 
比 “ 十 "来 得 高 ,这 与 “ 先 乘除 后 加 减 ”的 约定 相 吻 合 。 

在 多 数 程 序 设 计 语言 中 if 语句 结构 都 采用 如 下 的 产生 式 : 

Sif C then S else S 

S™ift'C then'S 

SO  ”/* 表 示 S 可 以 是 其 他 语句 x*/ 
其 中 ,S 是 开始 符号 ,C 是 条 件 表达 式 ,O 表示 其 他 语句 ,这 个 文法 
也 是 二 义 文法 。 比 如 对 于 句子 if Ci then if Cs then Si else S; ,有 如 
下 两 棵 树 ( 图 2. 6) 与 之 对 应 。 为 了 消除 此 二 义 性 ,几乎 所 有 程序 设 
计 语 言 都 作 这 样 的 规定 :else 应 与 其 前 面 最 靠近 的 但 尚未 被 匹配 的 
then 相 匹配 ,也 就 是 说 只 能 按 图 2. 6(b) 的 语法 树 进行 归 约 。 

文法 二 义 性 问题 是 不 可 判定 的 , 即 不 存在 一 种 算法 ,能 在 有 限 


E 
| 
T 
py 
| | 
F i 
| 
. 
图 2.5 非 二 义 文法 对 应 的 
一 棵 语法 树 


步 数 内 确切 地 判定 一 个 文法 是 否 为 二 义 文法 。 若 要 证 明文 法 是 二 义 文法 ,只 要 举 出 一 例 即 可 ; 


但 是 要 证 明文 法 不 是 二 义 文法 ,那么 过 程 便 结束 不 了 。 


if Cs then S else 5, 
if ©C, thn §$ if © then Ss, else S$ 
(a) (b) 
图 2.6 让 语句 对 应 的 两 棵 语法 树 
习 题 
2-1 设 有 字母 表 A 王 {a,b,c,…,z},.As: 王 (0,1,2,…,9}, 试 回答 下 列 问题 


(1) 字母 表 A 上 长 度 为 2 的 符号 串 有 多 少 个 ? 
(2) 集合 A1As 含有 多 少 个 元 素 ? 


2-2 写 出 字符 串 abcd 的 前 级 ,后 级 、 子 串 和 子 序列 ,以 及 真 前 级 、 真 后 级 和 真子 串 。 


-3 令 文法 Gs 为 
N->DIND 
D-~>0111213141516171819 
(1) 给 出 句子 235 和 025 的 最 左 推导 和 最 右 推导 ; 
(2) Gs 文法 定义 的 语言 L(G;) 是 什么 ? 
2-4 设 文法 G4 为 
E>E+TIE—TIT 
T—>T*F|T/F|IF 
F—>(E)|i 
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(1) 试 写 出 文法 G: 的 Vx ,Vr 和 元 语言 符号 集 ; 

(2) 给 出 iixiix (i 一 让 的 最 左 推导 和 最 右 推导 ; 

(3) 给 出 iixiix(i 一 iD 的 语法 树 ; 

(4) 句子 i 一 i 十 i 中 哪个 算 符 优先 ? 为 什么 ? 

2-5 设 文法 Gs 为 

S->al 人 |(T) 
T=T,SIS 

给 出 句子 (((a,a), 八 ,(a)),a) 的 最 左 和 最 右 推导 , 画 出 最 右 推 导 的 语法 树 , 并 指出 最 左 规 
范 归 约 过 程 每 一 步 的 句柄 (在 语法 树 上 标 出 即 可 ) 。 

2-6 已 知 文法 Ge 为 
S>AB 
: S=DC 
A—>aA 
A—e 
. BbBc 
B—e 
“ Cel 
Ce 
. D>aDb 

10. Dé 

试 给 出 下 述 句 型 或 句子 的 最 左 推导 过 程 和 语法 树 : 

(1) aaabbbcc 

(2) aabbBcc 
你 能 用 简洁 的 语言 描述 该 文法 所 定义 的 语言 吗 ? 
2-7 给 出 下 述 语言 的 正规 文法 。 

一 {anban|m,n 志 0} 

二 {wlwE (0,1)* 且 0,1 的 个 数 都 为 偶数 } 

esi 

二 {wl|w€E (0,1)+ 且 w 中 1 的 个 数 为 奇数 } 
2 一 给 出 下 述 语言 的 上 下 文 无 关 文法 。 

Li1={ab"c"|n 宕 0, mm 之 0} 

二 {wcw*s|wE (a,b)* ,wr 是 o 的 反 置 ,例如 wo= 王 aab,wg 一 baa} 

La 一 {anbrc"d"|m,n 亏 1) 

二 {wlw 是 不 以 0 开头 的 十 进 制 奇数 集 } 
2-9 试 将 如 下 两 个 上 下 文 无 关 文法 分 别 改写 成 正规 文法 。 
(1) N 一 DNID 

D>0|1 


> 


28 


《2 P=AB 


B—>bBlb 
A>MIN 
M—>aM|la 
N>cNle 
2 一 10 试 化 简 下 面 的 文法 ,其 中 S 为 文法 开始 符号 。 
SE 二 人 E>E|S+FIT 
F—>F|FPI|P 下 -一 全 
GY>GIGGIF 下 


Q>E|E+FITIS Si 
2-11 试 把 下 述 上 下 文 无 关 文 法 等 价 地 变换 为 无 s 产 生 式 的 文法 。 
(iD Ga (1) E>TE! 
(2) E' 一 十 TE' 
(3) E' 一 s 
(4) T->PT' 
(5) T' 一 <PT' 
(6) T' 一 e 
(7) P>(E) 
(8) Pi 
(ii) Gu ed DN 
(2) T>FTIF 
(3) F>PxFIP 
(4) P>(E)l|ale 
2-12 对 练习 2-4 的 Gs 证 明 E 二 Tx*Fxi 二 i 是 它 的 一 个 句 型 ,指出 这 个 句 型 的 所 有 短 
语 .直接 短语 和 句柄 。 
2-13 证 明 下 列 两 个 文法 都 是 二 义 文法 。 
(1) S>aSbS|bSaSle 
(2) SiSeS|iS|i 
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3 词法 分 析 


编译 程序 的 词法 分 析 的 理论 基础 是 有 限 自动 机 理论 ,而 有 限 自 动机 理论 与 正规 文法 .正规 
式 三 者 之 间 在 描述 语言 方面 有 一 一 对 应 关系 。 了 解 了 这 三 者 之 间 的 关系 ,词法 分 析 程 序 的 构 
造 及 词法 分 析 程 序 的 自动 生成 问题 便 迎 刃 而 解 了 。 因 此 ,本 章 以 介绍 自动 机 理论 为 主 并 由 此 
了 解 三 者 关系 ,而 把 词法 分 析 器 当 作 自 动机 理论 的 一 种 重要 应 用 。 


3.1 正规 文法 和 有 限 自 动机 


本 节 旨 在 介绍 正规 文法 (Chomsky 3 型 文法 ) 正规 集 以 及 有 限 自 动机 之 间 的 关系 。 它 所 
涉及 的 内 容 是 编译 中 词法 分 析 和 自动 生成 词法 分 析 程 序 的 理论 基础 。 


3.1.1 正规 文法 .正规 集 与 正规 式 


正规 文法 是 描述 正规 集 的 文法 , 它 可 以 用 来 描述 程序 设计 语言 的 词法 部 分 。 根 据 Chom- 
sky 对 正规 文法 的 产生 式 定义 ,产生 式 必 须 是 
A>aB A 一 a "aEVT 
或 者 A 一 Bu A 一 a ,aEVI 
前 者 称 右 线性 文法 ,因为 产生 式 右 部 的 非 终结 符 B 在 终结 符 串 a 的 右边 ;后 者 称 左 线性 文 
法 ,因为 产生 式 右 部 的 非 终 结 符 B 在 终结 符 串 a 的 左边 。 在 一 个 正规 文法 中 不 允许 既 用 右 线 
性 文法 又 用 左 线性 方法 ,只 能 任 取 其 中 之 一 来 表示 。 由 正规 文法 产生 的 语言 称 作 正规 集 。 正 
规 集 是 集合 ,可 以 是 有 穷 的 也 可 以 是 无 穷 的 ,能 和 否 用 一 种 形式 化 的 办 法 来 描述 呢 ? 答案 是 肯定 
的 ,这 就 是 正规 式 Regular Expression( 简 称 Re) 。 
定义 : 设 A 是 非 空 的 有 限 字母 表 ,A={aili=1,2,…,n}), 则 : 
(1) e, 名 ,ai(i 二 1,2,…,n) 都 是 Re; 
(2) 车 a,B 是 Re, 则 alB,a，B,a* ,B* 也 是 Re; 
(3) Re 只 能 通过 有 限 次 使 用 1,2 规则 而 获得 。 
这 里 涉及 三 种 运算 符 :“|1” 读 作 “ 或 ”, 也 可 写作 “十 ”或 “,”;“。” 读 作 “ 连 接 ”, 通 常 省 写 ; 
“x ” 读 作 “ 闭 包 ”, 它 为 0 次 或 0 次 以 上 有 限 次 的 自身 乘积 。 这 三 种 运算 符 的 优先 级 是 :“ x ”最 
高 ,“。” 次 之 ,“| ”最低 。 当 然 插 号 可 以 改变 优先 顺序 ,这 与 数学 中 的 用 法 相同 。 另 外 ,其 中 名 
称 为 空 集 ( 即 集合 中 连 空 串 也 没有 ) ,也 写作 { }。 在 程序 语言 中 它 没有 意义 ,这 里 引进 它 仅 
仅 是 为 了 理论 上 的 完备 性 .今后 也 不 再 讨论 它 。 
[ 例 3.1J 设 A={ai|li= 二 1,2,…,k), 则 ,al ,alaz ,al|asaz ,as (as|1as)”,… 都 属 A 上 的 Re。 
[ 例 3.2] 设 V=={0,1), 则 e,0,1,0011,(01)*10,((01)* | 1)* ,… 都 是 V 上 的 Re, 也 就 是 
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说 任何 一 个 二 进 制 字符 串 ( 包 括 空 串 ) 都 是 V 上 的 Re。 

仅 由 字母 表 A={aili 王 1,2,…,k} 上 的 正规 式 a 所 组 成 的 语言 称 作 正 规 集 , 记 作 L(a)。 

设 a 和 8B 是 正规 式 ,那么 a=B 当 且 仅 当 L(a)==L(B)。 利 用 两 个 正规 集 相 同 ,可 以 证 明 两 
个 正规 式 等 价 。 

[ 例 3. 3] 试 证 bl(ab)* = 二 (ba)*b。 

证 明 : L(b(ab)* )={b,bab,babab,*…} 

L((ba)* b)={b,bab,babab,.…} 
由 于 正规 集 的 前 n 项 相同 ,可 知 它们 的 正规 集 是 相等 的 ,所 以 正规 式 b(ab)* = 二 (ba)*b。 
定理 3.1: 若 a,B,Y 是 Re, 则 下 述 等 价 式 成 立 


(1) oa 十 B 王 B 十 wa (交换 律 ) 
(2) a (B+Y)= (atB)+ 7 
a(BY)= (aB)Y (结合 律 ) 
(3) a(B+tyY)=aBtay 
(at+B)Y=ay+BY (分 配 律 ) 


(4) sa 一 as 一 w 
(5) (a” ) ”一 oa” 
(6) o 一 ao+ 十 se at=aa’ 一 aa 
(7) (oa 十 B) =(a’ 十 让) 一 (a 有 8)” 
这 个 定理 同样 可 由 它们 对 应 的 正规 集 相 等 而 得 证 。 
定理 3.2: 设 a,B,Y 是 字母 表 A 上 的 Re, 且 e&L(Y), 则 等 价 式 
(1) a 二 Blay 有 唯一 解 (2) a=BY"* 
也 即 有 a 二 Blay 当 且 仅 当 a=By*。 
这 里 不 作 详 细 证 明 , 仅 说 明 如 下 :(1) 式 是 左 递归 表示 法 ,a 通过 0 步 或 0 步 以 上 用 ay 取 
代 得 到 ay* ,最 后 一 步 a 用 B 取代 获得 BY" 即 得 (2) 式 。 
与 这 个 定理 对 应 的 还 有 一 个 右 递 归 表 示 法 , 即 a==B|Y a 当 且 仅 当 a=Y* B。 
[ 例 3. 4] 正规 式 a 二 a* bt ct 所 代表 的 正规 集 为 L(a) , 它 可 以 写作 


L(a)= {abc,aabc,abbc,abcc,aaabc,aabbc,*…}= {aibic:|i,j,k>1} 
由 上 一 章 例 2.7 可 知 这 个 语言 是 由 文法 G 产生 的 ,其 产生 式 重 写 如 下 : 
G1:S>aSlaB B>bB|lbA A>cAlc 


可 见 , 正 规 式 与 正规 文法 有 密切 关系 ,或 者 说 由 正规 文法 G 可 直接 求 得 对 应 语言 的 正规 
式 。 方 法 是 首先 由 正规 文法 G 的 各 个 产生 式 写 出 对 应 的 正规 方程 式 , 获 得 一 个 联 立方 程 组 。 
这 些 方程 式 中 的 变 元 是 非 终 结 符 ,我 们 求解 这 个 正规 方程 式 组 ,最 后 得 到 一 个 关于 开始 符号 S 
的 解 :S 三 w,wE Vi ,这 个 w 就 是 所 求 的 正规 式 。 下 面 举 例 说 明 。 
[ 例 3. 5] 已 知 正规 文法 Gi 的 产生 式 ,请求 出 它 所 定义 的 正规 式 。 
解 : 由 产生 式 可 以 写 出 它 所 对 应 的 联 立 方程 组 : 
S 一 aSlaB.…………(]1) 
B=bB|bA*… (2) 
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A 一 CA|c……… (3) 
根据 定理 3. 2,(1) 式 是 右 递归 表示 法 ,其 解 为 


S=a* aB=at Br (4) 
同 理 ,由 式 (2) 获 得 其 解 

B=b*bA=bt A (5) 
由 式 (3) 获 得 其 解 

A=e* c=et (6) 


由 式 (6) 代 入 式 (5) ,再 由 式 (5) 代 入 式 (4) ,最 后 获得 S=at bt ct 。 


3.1.2 有 限 自动 机 


有 限 自动 机 (FA) 是 具有 离散 输入 输出 系统 的 数学 模型 。 这 种 系统 具有 有 限 数目 的 内 部 
状态 ,系统 的 当前 状态 概括 了 过 去 输入 处 理 的 信息 。 系 统 只 需要 根据 当前 所 处 的 状态 和 面临 
的 输入 字符 就 可 决定 系统 后 继 的 行为 。 每 当 系 统 处 理 了 当前 的 输入 字符 后 ,系统 的 内 部 状态 
也 将 发 生变 化 。 电 梯 控 制 装置 就 是 有 限 自 动机 系统 的 一 个 例子 。 乘客 只 要 抠 他 所 要 到 达 的 层 
号 作为 输入 信息 ,而 电梯 用 当前 所 处 层 数 与 运动 方向 作为 当前 状态 ,就 能 决定 是 先 满足 当前 乘 
客 的 要 求 ,还 是 满足 其 他 乘客 的 要 求 。 电 梯 控 制 装置 无 须 记 住 以 前 干 过 的 工作 。 

数字 逻辑 电路 中 时 序 电 路 的 设计 、 文 本 


编辑 中 编辑 程序 的 设计 和 编译 程序 中 词法 分 ”入党 [a | [cfale| … | 


析 的 设计 都 采用 有 限 状态 自动 机 。 有 限 状态 
自动 机 的 模型 可 用 图 3. 1 描述 。 
控制 器 
图 3.1 有 限 状态 自动 机 的 模型 


模型 由 一 条 有 限 长 度 的 输入 带 、 一 个 读 
头 和 一 个 有 限 状 态 控制 器 组 成 。 输 入 带 存 放 
输入 字符 串 , 每 个 输入 字符 占 一 个 单元 (一 
格 ) 。 读 头 从 左 到 右 扫 描 并 读 人 每 个 输入 字符 。 每 读 和 一 个 字符 , 读 头 前 进 一 格 。 有 限 状 态 控 
制 器 根据 当前 状态 和 读 和 人 字符 转 和 人 下 一 个 状态 。 

FA 与 其 他 具体 机 器 一 样 , 它 也 有 初始 状态 ( 初 态 ) 和 终止 状态 ( 终 态 ) 。 在 初 态 下 , 读 头 指 
向 输入 带 的 最 左 单元 ,准备 读 和 人 第 一 个 字符 ; 终 态 可 以 有 若干 个 ,如 果 读 头 已 读 入 带 上 的 最 后 
一 个 字符 ,而 状态 又 正巧 进入 某 终 态 ,这 表示 输入 带 上 的 输入 串 被 接受 ,否则 不 被 接受 。 

为 了 更 好 地 研究 和 应 用 FA ,需要 给 出 它 的 形式 定义 ,下 面 分 确定 有 限 自 动机 和 不 确定 有 
限 自动 机 进行 讨论 。 

1) 确定 有 限 自动 机 (Deterministic Finite Automata ,简写 成 DFA) 

定义 :确定 有 限 自动 机 M 是 一 个 五 元 组 ,M=(S. 之 ,f,so,Z) 

其 中 .S 一 一 有 限 状态 集 , 它 的 每 一 元 素 s 称 为 一 个 状态 ; 

> 一 一 有 穷 字母 表 , 它 的 每 一 元 素 为 一 个 输入 字符 ; 

{一 一 个 从 SX 到 S 的 单 值 映射 ( 读 作 由 状态 S 与 字母 表 之 组 成 序 偶 到 状态 S 的 
单 值 映射 ) ,fCs,a) 王 s 意味 着 在 当前 状态 s 情况 下 , 读 和 字符 a 将 转换 到 s' 状态 ,其 中 s,s'€ 
SiaE Zs 


So 


初始 状态 ,so ES; 
六 


2 一 一 终止 状态 集 ,ZSS。2Z 可 为 空 集 ,表示 该 DFA 不 接受 任何 东西 。 
DFA 的 映射 关系 可 以 由 一 个 矩阵 表示 ,该 矩阵 的 行 标 表示 状态 , 列 标 表 示 输 入 字符 ,矩阵 
元 素 表示 fs,a) 的 值 , 这 个 矩阵 称 为 状态 转换 矩阵 。 
[ 例 3. 6] DFA M=({0,1,2,3},{a,b},f,0,{3}) 


其 中 了 为 : 

{(0,a)=1 {(0,b)=2 

{(1,a)=3 fCL, B= 

f(2,a) 一 1 b= 

{(3,a)=3 {(3,b)=3 

所 对 应 的 状态 转换 矩阵 如 表 3. 1 所 示 。 

用 矩阵 表示 映射 关系 便于 计算 机 处 理 , 但 人 们 看 起 来 不 直 表 3.1 状态 转换 矩阵 
观 , 而 用 状态 转换 图 表示 就 比较 直观 。 假 定 DFA M 含有 m 个 : 
状态 和 n 个 输入 字符 ,那么 ,这 个 图 含有 m 个 状态 结 点 ,每 个 结 


点 最 多 只 能 有 n 条 弧 从 结 点 射出 并 与 别 的 结 点 相连 接 , 每 条 弧 
上 的 标记 是 字母 表 之 上 的 一 个 字符 。 整 个 图 只 有 一 个 初 态 结 
点 ,用 “一 ” 射 人 的 结 点 表示 初 态 。 终 态 结 点 可 以 有 若干 个 (也 可 
能 没有 ) ,用 双 圆 圈 表 示 。 例 如 , 例 3.6 所 定义 的 DFA M, 其 相 
应 的 转换 图 如 图 3. 2 所 示 。 由 图 可 知 它 能 识别 之 上 所 有 相继 2 
个 a 或 相继 2 个 b 的 串 。 若 M 的 初 态 结 点 同时 又 是 终 态 结 点 ， 
则 空 串 s 可 为 M 所 识别 。 

[ 例 3.7] 构造 一 个 DFA M, 它 接受 字母 表 {a,b,c} 上 以 a 或 b 开 始 的 字符 串 ,或 以 < 开始 
但 所 含 的 a 不 多 于 一 个 的 字符 串 。 

解 :根据 题 意 可 以 画 出 状态 转换 图 如 图 3. 3 所 示 。 


图 3.2 例 3.6 的 状态 转换 图 图 3.3 例 3.7 的 状态 转换 图 


由 图 3. 3 很 容易 写 出 这 个 DFA M==({0,1,2,3},{a,b,c},f,0,{1,2,3)) ,其 中 f:f(0,a) 一 
LEO bY = faD= Ll)=Lthe)= i a)=% (Ne) 
f(3,b) 王 3,{(3,c) 一 3。 

每 读 一 个 字符 读 头 前 进 一 格 ,状态 前 进 至 下 一 状态 。 我 们 称 它 作 了 1 步 动作 , 记 作 “ 上 ”， 
同样 HH”,“ 上 上 +” 上” ”分别 表示 自动 机 作 了 上 步 、1 步 或 1 步 以 上 和 0 步 或 0 步 以 上 的 
动作 。 

定义 : 串 vcE 了 为 DFA M==(S, 沁 ,f,so,Z) 所 识别 当 且 仅 当 (so ,a) 上 * (o,e) 且 sSEZ。 
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这 表示 从 初 态 出 发 ,经 过 0 步 或 0 步 以 上 动作 , 读 完 输 入 串 且 状态 进入 某 终 态 , 则 该 串 被 
M 所 识别 。 能 被 DFA M 所 接受 的 字符 串 的 集合 称 为 M 所 能 识别 的 语言 , 记 作 L(M)。 显 然 ， 
不 能 被 接受 的 字符 串 有 两 种 情况 : 

(1) 读 完 输 入 串 ,状态 不 停 在 终 态 , 即 (so ,a) 上 * (s' ,es) ,其 中 s' 不 属于 2; 

(2) 在 读 过 程 中 出 现 不 存在 的 映射 ,使 自动 机 无 法 继续 动作 。 如 例 3.7 中 , 当 处 于 3 状态 
时 又 读 入 a, 便 无 法 继续 动作 。 

[ 例 3. 8] 设 DFA M=({so,si,ss,s3},{0,1},f,so,{so)), 其 中 f 画 成 状态 转换 图 如 图 3. 4 
所 示 。 试 问 该 M 所 识别 语言 是 什么 ? 

解 :首先 ,我 们 要 了 解 能 被 M 接受 的 串 是 什么 。 这 里 暂 1 
时 只 能 用 枚 举 法 , 辟 如 串 110101 能 被 M 所 识别 吗 ? CC > 


识别 过 程 :(so ,110101) 上 FCsi,10101) 上 (so,0101) 上 F(s;， 
101) 上 (ss ,01) 上 上 (si,1) 上 (so ,8) ,识别 成 功 。 {| 可 
再 看 串 01001 能 被 M 所 识别 吗 ? 识别 过 程 :(s ,01001) 上 (5 Xs) 
(sa ,1001) 上 (ss ,001) 上 (Cs1,01) 上 (Css,1) 上 (ss ,8) ,识别 不 成 I 


功 ,因为 ss 4&2Z。 由 识别 成 功 的 例子 可 知 该 DFA M 是 用 于 接 图 3.4 例 3.8 状态 转换 图 
受 偶 数 个 1 和 偶数 个 0 的 串 ( 当 然 包括 空 串 ) 。 
DFA 的 确定 性 表现 在 映射 函数 f 是 单 值 映射 , 即 每 一 次 转向 的 状态 是 唯一 的 。 如 果 
f(s,a) 的 值 不 唯一 ,而 是 一 个 状态 子 集 的 话 ,那么 这 样 的 FA 就 称 作 不 确定 有 限 自动 机 。 
2) 不 确定 有 限 自 动机 (Nondeterministic Finite Automata ,简写 成 NFA) 
定义 :NFA M 是 一 个 五 元 组 , M=(S,2,f,S, ,2Z) 
其 中 :S, 之 定义 同 DFA; 
{一 一 一 个 从 SX 到 S 子 集 的 映射 , 即 f:SX 之 一 2*(s 为 状态 个 数 ) ; 
So 一 一 初始 状态 集 , 它 不 能 为 空 , 即 SCS; 
[ 例 3.9] 设 NFA M=({(qo,qd}, (0,.1),f,{(q} (qdq),f 的 映射 见 如 下 矩阵 或 状态 转 
换 图 


字符 0 
状态 A Ee 
qo qo 9 OO 0 
9 qo yq qo 


若 当前 状态 是 qi , 当 读 进 0 时 有 两 个 映射 状态 qo、qi, 所 以 它 不 是 单 值 映 射 而 是 多 值 映 射 , 转 向 
后 的 状态 是 不 确定 的 。NFA 映射 的 含义 可 以 表达 成 :f(s'6,a) 二 {so0,s1,sso，"… ,sg), 其 中 si € 
S,si 是 泛 指 S 中 某 些 状态 ,不 是 特 指 s 一 sk 状态 ,下 同 ,soES,{sosi,…,ss)}SS,{(soysl…， 
sg) 人 E25。 可 见 它 是 转向 到 S 震 集 的 一 个 元 素 。 

映射 还 可 以 扩展 到 对 输入 字符 串 , 即 f(s,w) 二 P,PE2*。 例 如 : 设 w==ab,a、b€ 之 ,根据 对 


k 
读 和 人 字符 的 映射 关系 ,有 fs,ab) 一 ffCs,a),b) 一 f({soysi ,si},b) = Ufs,b) = {s,s, 
ed 
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于 是 也 可 以 说 fCs, 乙 * )E2:, 即 映射 {写作 SX" 一 2:。 

任何 两 个 有 限 自动 机 M 和 M' , 若 它们 识别 语言 相同 ,写作 LOM) 王 LOM') , 则 称 M 和 M 
等 价 。 自 动机 理论 中 有 一 重要 定理 :判定 任何 两 个 有 限 自 动机 等 价 性 的 算法 是 存在 的 。 

3) NFA 的 确定 化 一 一 子 集 法 

设 工 是 由 一 NFA 接受 的 正规 集 , 则 存在 一 个 DFA 接受 L。 

这 是 一 条 定理 ,此 定理 可 用 以 下 的 构造 算法 加 以 证 明 。 

由 NFA M=(S,,f,So,Z) 构 造 一 个 等 价 的 DFA M'==(Q, ,6,1 ,F) 的 算法 如 下 : 

(1) 取 了 ,=So; 

(2) 若 状 态 集 Q 中 有 状态 I 二 {so ,si,…，,si),ssES,0 委 k 魏 j ,而 且 M 机 中 有 fC{so ,si,*…， 


,二 UfCseo) 二 (sos51.…wst) 二 1 车 1 不 在 QQ 中 , 则 将 二 加 入 QQ 中 ; 

(3) 重复 第 (2) 步 ,直至 Q 中 不 再 有 新 的 状态 加 入 为 止 ; 

(4) 取 F={I|I€Q, 且 IZ 名})。 

此 过 程 可 在 有 限 的 步 数 内 完成 ,因为 M 机 状态 的 寡 集 是 有 限 的 。 

NFA 的 确定 化 算法 表明 ,对 一 个 NFA M 总 可 以 构造 一 个 等 价 的 DFA M', 这 个 过 程 可 用 
表格 法 来 描述 。 表 格 的 列 标 仍 是 之 上 的 各 个 字符 ,表格 的 行 标 是 Q 中 的 各 状态 ,开始 仅 包含 
Il 状态 , 随 着 算法 的 执行 ,Q 的 状态 逐渐 增多 直至 不 再 增多 为 止 。 表 格 元 素 即 为 8 映射 函数 。 
下 面 用 例子 说 明确 定 化 过 程 。 

[ 例 3. 10] 试 把 例 3.9 的 NFA 确定 化 。 

解 :确定 化 过 程 如 下 : 

Q 中 初 态 1 ,= 二 {qo), 当 读 人 字符 0,1 时 , 按 NFA 映射 函数 有 f(l ,0) 一 {qo) ,f(b,1)= 
{qi } 并 填 人 表格 相应 位 置 。 其 中 {q } 不 在 Q 中 ,将 它 命名 为 了 并 加 入 Q 中 ( 即 横向 增加 一 个 
状态 ) ,接着 考察 Q 中 的 工 在 读 入 0,1 时 的 映射 , 按 NFA 映射 函数 有 f(D ,0) 一 {qo,q}， 
f(T ,1) 二 {qo} 并 填 和 人 表格 相应 位 置 。 其 中 (qo ,q } 不 在 Q 中 ,将 它 命 名 为 二 并 加 入 Q 中 ,重复 
上 述 过 程 , 求 得 f(1,0) 二 {qo ,qi1) ,f(l2,1) 二 (qo,q1} 并 填 入 表格 相应 位 置 。 这 些 状态 集 均 已 在 
Q 中 ,算法 结束 。 

此 过 程 画 成 表格 如 表 3. 2(a) 所 示 , 若 以 命名 状态 取代 状态 子 集 , 重 画 转换 和 矩阵 如 表 3. 2 
(b) 所 示 。 

表 3.2 利用 表格 的 确定 化 过 程 


2 
Q 0 1 
Lb={qo} Lb={q} L={q} 
Lh={q} Lz={q,q} b={qo} 
王 一 {qo,q} 工 一 {qo ,qi} 开 一 {qo,q} 
(a) 


由 表格 获得 的 状态 转换 矩阵 可 以 画 成 对 应 的 状态 
转换 图 (如 图 3. 5 所 示 )。 因 ILN{q} 了 ,Lz 几 {q1} 关 多 ， 
所 以 上 一 {D ,I), 于 是 

DFA M=({L,h ,1},{0,1},6,1, {Lh ,I2}) 


1 
3.5 确定 化 后 的 状态 转换 图 
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NFA 确定 化 的 实质 是 以 原 有 状态 集 上 的 覆盖 片 (cover) 作 为 DFA 上 的 一 个 状态 ,将 原状 态 
间 的 转换 改 为 覆盖 片 间 的 转换 ,从 而 把 不 确定 问题 确定 化 。 通 常 ,经 过 确定 化 之 后 ,状态 数 
增加 ,而 且 可 能 出 现 一 些 等 价 状态 ,这 时 需要 化 简 。 
4) 确定 有 限 自 动机 的 化 简 
将 确定 的 有 限 自 动机 进行 化 简 ( 又 称 最 小 化 ) ,化 简 的 条 件 是 接受 的 语言 必须 相同 。 
定义 : 设 DFA M 中 有 两 个 状态 s 和 t, 若 (s,w) 上 (si,e),(t,w) 上 (ti,e) 且 si,t 都 属于 
终 态 ,wE Vi , 则 称 s,t 为 等 价 的 ,否则 称 可 区 分 的 。 

最 小 化 算法 [又 称 划分 法 (Partition)] 的 原则 是 将 DFA M 中 的 状态 划分 成 不 相交 的 子 集 ， 
在 每 个 子 集 内 部 其 状态 都 等 价 , 而 在 不 同 子 集 间 的 状态 均 不 等 价 ( 即 可 区 分 的 ) 。 最 后 ,从 每 个 
子 集中 任 选 一 状态 作为 代表 ,消去 其 他 的 等 价 状态 。 将 那些 原来 射 人 其 他 等 价 状态 的 弧 改 射 
人 相应 的 代表 状态 。 

按照 这 个 原则 构造 算法 如 下 : 

(1) 首先 把 状态 集 S 分 成 终 态 集 和 非 终 态 集 , 因 为 终 态 集 可 接受 s, 而 非 终 态 集 则 不 能 ,所 
以 它们 是 可 区 分 的 。 这 就 是 基本 划分 :TI,= 人 { 卫 ,GE}。 设 了 于 属于 非 终 态 集 , 卫 属于 终 态 集 。 

(2) 假定 经 过 次 划分 后 ,已 含有 m 个 子 集 , 记 作 IL={ 卫 ,了 下,…, 下)}。 这 些 子 集 到 现在 
为 止 都 是 可 区 分 的 ,然后 继续 考察 这 些 子 集 是 否 还 可 划分 。 设 任 取 一 子 集 玉 一 {si,sy,…,st)， 
若 存在 一 个 输入 字符 a, 使 得 f(T ,a) 不 全 包含 在 现行 1[; 的 某 子 集中 ,例如 fCsi ,a ee f(ss ， 
a) 一 已 ,而 tt 分 属于 IT 的 不 同 子 集 , 这 说 明 在 玉 中 有 不 等 价 的 状态 , 它 应 该 还 可 一 分 为 二 。 
对 所 有 子 集 下 , 读 人 字符 a 做 一 遍 才 完成 这 次 划分 。 

(3) 重复 步骤 (2) ,直至 所 含 的 子 集 数 不 再 增加 为 止 。 到 此 开 中 的 每 个 子 集 是 不 可 再 分 
了 。 也 即 每 个 子 集 内 的 状态 是 等 价 的 ,而 不 同 子 集 间 的 状态 是 可 区 分 的 。 

(4) 对 每 一 个 子 集 任 取 一 个 状态 为 代表 , 若 该 子 集 包含 原 有 的 初 态 , 则 此 代表 状态 便 为 最 
小 化 后 M 的 初 态 ; 若 该 子 集 包含 原 有 的 终 态 , 则 此 代表 状态 便 为 最 小 化 后 M 的 终 态 。 

此 过 程 可 以 在 有 限 步 内 结束 ,因为 状态 数 是 有 限 的 。 

[ 例 3. 11] 设 有 一 DFA 的 状态 转换 图 
如 图 3.6 所 示 , 试 化 简 之 。 

解 :TT。={{0,1,2},{3,4,5,6}} 
Il={{0},{1},{(2},{(3,4,5,6})} 
I;={{0},{1},{2},{3,4,5,6}}= I 

划分 结束 。 其 中 T。 是 将 终 态 与 非 终 态 分 
成 两 个 子 集 。 再 看 1， a tp eae aid 
a)={3,4,5,6),{({3,4,5,6},b)={3 图 3:6 未 化 简 DEA 
5,6}, 所 以 子 集 {3,4,5， 6} 已 不 可 再 分 。 0 {0,1,2} ,a) 二 {1,3}), 它 既 不 包含 在 {0,1,2) 之 中 ， 
也 不 包含 在 {3,4,5,6} 之 中 ,因此 应 把 10,1,2) 一 分 为 二 。 由 于 状态 1 经 a 弧 到 达 终 态 3, 状 态 
0,2 经 a 弧 到 达 非 终 态 1, 所 以 将 {0,1,2} 分 成 {1} 和 {0,2} 两 个 子 集 。 由 于 f({0,2),b) 二 {2,5} 
也 不 包含 在 IT。 的 两 个 子 集 中 ,所 以 {0,2} 也 可 一 分 为 二 , 即 {0} 和 {2}。 至 此 ,II 划分 成 4 个 
子 集 {0},{1},{2},{3,4,5,6}。 

继续 做 开 , 划分 ,但 了 ;已 不 可 再 分 了 ,最 后 令 3 代表 {3,4,5,6}), 把 原来 射 向 4,5,6 的 弧 
改 射 向 3 ,并 删 去 4,5,6 结 点 ,这 样 便 得 图 3.7, 为 化 简 了 的 DAF。 
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3.1.3 正规 式 与 有 限 自动 机 之 间 的 关系 
3.1. 1 节 讲 过 正规 文法 与 正规 式 有 对 应 关 


系 , 这 一 节 将 要 介绍 正规 式 与 有 限 自 动机 之 间 的 2 人 

关系 。 我 们 可 以 用 如 下 两 条 定理 来 明确 它们 之 。 一 (0) oi 

间 的 关系 。 ， 
定理 3.3: 避 上 的 NFA M 所 能 识别 的 语言 (2) 

L(M) 可 以 用 上 的 Re 来 表示 。 图 3.7 简化 后 的 DFA 


定理 3.4: 对 于 之 上 的 任何 Re a, 存 在 一 个 DFA M 使 得 L(M)==L(a)。 
证 明定 理 3. 3: 对 于 之 上 的 NFA M ,我 们 来 构造 一 个 Re a, 使 用 L(a) 二 L(M)。 首 先 将 状 
态 转 换 图 进行 拓 广 , 令 每 条 统 可 以 用 一 个 正规 式 表 示 , 并 且 引 进 3 条 简单 的 FA 替换 规则 : 


() 代 之 以 
以 

O) tz 一 CO) 于 -人 (2) 

RE 代 之 以 


(1),(2) 两 条 替换 规则 很 简单 无 需 证 明 ,在 此 仅 证 明 蔡 换 规则 (3) 。 

证 明 ， L(2) 王 LC1D)B 十 LC2)7 (1) 
L(1)=e (2) 

设 L(2)==a, 并 将 (2) 代 入 (1) 得 a=B 十 ay。 

根据 定理 3. 2, 可 以 得 到 此 左 递归 等 价 式 的 解 a 二 BY” ,所 以 替换 规则 (3) 成 立 。 

[ 例 3. 12] 下 图 是 替换 规则 的 应 用 。 图 (a) 是 一 个 FA, 试 用 替换 规则 将 其 表示 成 Re。 


2 


© poly @ 8 O (BI)(od)* 四 


(9) (d) 
解 :首先 消去 结 点 2, 利 用 替换 规则 (1) 由 (a) 图 变 成 (b) 图 ;再 利用 替换 规则 (2) 由 (b) 图 变 
成 (c) 图 ;最 后 利用 蔡 换 规则 (3) 得 (d) 图 。 由 (d) 图 可 得 该 FA 接受 的 正规 式 为 (B3|Y)(Ca3)”。 
一 般 而 言 ,NFA M 可 按 下 列 方式 对 状态 图 进行 变换 : 
(1) 在 原状 态 图 上 增加 两 个 结 点 x,y, 从 x 结 点 用 。 弧 将 其 连接 到 M 的 初 态 , 从 M 的 所 
有 终 态 结 点 引 s 弧 至 y 结 点 。 
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(2) 利用 上 述 三 条 替换 规则 逐步 消去 M 中 的 结 点 与 弧 线 ,直至 状态 图 中 仅 剩 下 x,y 两 个 
结 点 和 连接 它们 的 唯一 弧 线 。 

(3) x 至 y 弧 线 上 的 标记 便 是 之 上 的 Re, 它 就 是 M 上 所 接受 的 正规 式 。 

[ 例 3. 13] 试 将 例 3. 8 中 DFA M 所 接受 的 语言 表示 成 正规 式 。 

解 :使 用 替换 规则 逐步 消去 结 点 ,整个 替换 过 程 如 图 3. 8 所 示 。 


(10100 (0011D)* (10101) 


(9 8 -CC) ((11100)1(10101) (11100)* (1010D))* 


11100 
(d) (e) 


图 3.8 构造 正规 式 过 程 


在 例 3. 8 中 ,我 们 只 能 用 枚 举 法 ,说 明 该 DFA M 能 接受 偶数 个 1 和 偶数 个 0 的 串 。 现 在 ,可 
以 将 它 写成 正规 式 ((11100)|1(10101)(11100)* (10101))* 了 ,使 得 L(M)=L(((11100)|1(10| 
01)(11|00)* (10|01))* )。 

证 明定 理 3.4: 这 是 要 证 明 由 Re a 可 以 构造 一 个 DFA M 使 得 L(a) 二 LC(M) ,整个 证 明 过 
程 是 证 明定 理 3. 3 过 程 的 逆 过 程 。 

(1) 由 Re a 构造 仅 包 含 x,y 两 个 结 点 的 状态 图 如 下 : 


©O———( 
其 中 ,x 为 初 态 结 点 ,y 为 终 态 结 点 ,连接 x,y 两 结 点 上 的 弧 线 标记 为 a。 
(2) 按 下 列 替换 规则 进行 分 裂 a: 


OO wr -OO 
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(3) 重复 步骤 (2) 直 至 每 根 弧 上 的 标记 是 之 上 的 一 个 字符 或 s 为 止 。 

(4) 将 所 得 NFA M( 因 为 包含 s 弧 ) 进 行 确定 化 便 得 到 DFA M。 

这 里 将 NFA M 进行 确定 化 与 前 面 讲 的 子 集 法 确定 化 是 一 回 事 。 不 过 这 里 的 NFA M 中 
包含 有 e 弧 ,所 以 在 求 覆 盖 片 时 应 考虑 8 弧 。 方 法 是 求 e 闭 包 (e-closure) ,将 此 闭 包 (状态 子 
集 ) 作 为 DFA 的 一 个 状态 使 用 ,而 将 NFA 上 状态 间 的 转换 变 为 闭 包间 的 转换 ,使 得 不 确定 的 
自动 机 确定 化 。 

什么 叫 e- 闭 包 呢 ? 它 的 定义 如 下 : 

es- 闭 包 由 两 部 分 组 成 : 

(1) 车 sE1, 则 s€e-closure(1); 

(2) 若 sEI, 那 么 从 s 出 发 经 过 任意 段 的 s 弧 而 能 到 达 的 任意 状态 s 都 属于 e-closure(D) 。 

这 里 状态 子 集 sclosure(DTD 读 作 工 的 s 闭 包 。 闭 包间 的 转换 是 按 如 下 方式 进行 的 : 设 
s-closure(J) 一 {qo,ql,…,qas}( 这 里 的 qi 泛 指 Q 中 若干 状态 ,不 是 特 指 q 一 qs 状态 ) , 当 读 人 
> 上 的 字符 a 时 , 它 转换 到 另 一 闭 包 s-closure(J) 。 此 s-closure(J) 也 由 两 部 分 组 成 ， 

(1) J= Uf(q,0) = {qq 

(2) 求 J 的 e- 闭 包 , 即 按 e- 闭 包 定 义 求 e-closure(J)。 这 里 的 NFA M 确定 化 也 可 以 采用 
表格 形式 来 完成 。 

[ 例 3. 14] 考虑 正规 式 (alb)* (aalbb)(alb)* ,构造 DFA M 使 得 L(M)=L((alb)* (aa| 
bb) (alb)* )。 

解 :第 一 步 , 先 构 造 NFA M, 见 图 3.9。 第 二 步 ,将 此 NFA M 通过 表格 法 形式 进行 确定 
化 , 见 表 3.3。 它 与 前 面 介 绍 的 表格 法 确定 化 的 差别 仅 在 于 这 里 的 状态 子 集 是 由 6- 闭 包 
求 得 。 

表 3.3 子 集 法 确定 化 


1={5,3,1} 


3 三 {5,3,1,2,6,y} 


1={5,3,1} 5={5,4,1,2,6,y) 


3={5,3,1,2,6,y)} 4={5,4,1,6,y) 


6={5,3,1,6,y} 5 一 (5,4,1,2.6,y} 


6={5,3,1,6,y} 5 一 (5,4,1,2.6,y} 


3 一 {5,3,1,2.6.y} 4={5,4,1,6,y} 
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-CC) (a| b)*(aa | bb) (a | b)* 
@) DT aalbb @) (alb)* O) 


aa 
A O00) GD CD 
alb bb alb 


. GS) . 
a a 
2 8 2 时 
b b 
b (4) b 


图 3.9 构造 NFA M 的 过 程 


画 成 状态 转换 图 如 图 3.6 所 示 , 这 正 是 例 3. 11 的 DFA M, 最 后 可 以 最 小 化 为 图 3.7 形式 
的 DFA。 


3.1.4 正规 文法 与 有 限 自 动机 


正规 文法 (Rg) 与 FA 之 间 的 关系 可 由 下 面 的 定理 加 以 确定 : 设 G=(Vx,Vr,P,S) 是 正规 
文法 , 则 存在 一 个 有 限 自动 机 M=(Q,>,f,qo ,2Z) 使 得 L(G)==L(M)。 此 定理 可 以 按 下 面 的 
构造 算法 加 以 证 明 。 这 里 先 讨论 右 线性 文法 的 自动 机 构造 ,然后 再 讨论 左 线 性 文法 。 

1) 右 线 性 文法 

取 M 中 Q=VnU{T}),T 是 M 中 新 增 的 终 态 ;==Vr;qo= 二 S$; 车 P 中 含有 Se, 则 2Z= 
{S,T) ,否则 Z={T} ,至 于 P 中 产生 式 可 以 用 如 下 的 映射 {来 取代 : 

(1) 对 于 了 中 每 一 条 形 如 Ai 一 aAs 的 产生 式 , 则 在 M 中 设 定 映射 式 f(Ai,a)==As; 

(2) 对 于 了 中 每 一 条 形 如 Ai~~a 的 产生 式 , 则 在 M 中 设 定 映射 式 {(Al ,a) 王 T; 

(3) 对 于 之 上 的 所 有 a 取 f(T,a)== 名 , 即 在 终 态 下 FA 无 动作 。 

[ 例 3. 1$] 已 知 文法 G=({S,A,B},{a,b,c},P,S), 其 中 P 的 产生 式 如 下 , 试 构造 等 价 
的 FA: 


S—aS 

S-~aB 

B->~bB 

. BbA 

A 一 cA 

:Ae 

解 :按照 上 面 的 蔡 换 方法 ,构造 等 价 FA 为 : 

Mi 人 SR 下 {arbyet BS ATY 

其 中 ff 为 : 
1. f(S,a)=S 


中 an 上 性 
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. {(S,a)=B 
. {(B,b)=B 
. {(B,b)=A 
. {(A,c)=A 
二 
这 是 不 确定 有 限 自 动机 ,其 状态 转换 图 见 图 3. 10(a) ,经 确定 化 后 见 图 3. 10(b) 。 


a b C a b 食 C 
(a) (b) 


3.10 ”由 右 线性 Rg 构造 FA 


wy 


相反 地 ,车 给 定 有 限 自 动机 FA M, 也 能 写 出 相应 的 右 线性 正规 文法 Rg, 这 里 仅 给 出 Rg 
的 产生 式 , 算 法 如 下 : 

(1) 车 M 中 有 映射 式 {(Ai,a) 王 Ai, 则 了 中 有 相应 产生 式 Ai 一 aAi; 

(2) 若 AEZ, 则 了 中 增添 产生 式 Ai 一 a; 

(3) 若 初 态 SEZ, 则 P 中 增添 Ss>e 产生 式 。 


2) 左 线性 文法 
在 左 线性 文法 中 ,文法 开始 符号 S abi 它 对 应 于 FA M 中 的 终 态 Z; 取 M 中 
的 Q 二 VwU {qo} ,qo 为 M 中 新 增 的 初 态 ; 之 =Vr;: 若 P 中 含有 Se 产生 式 , 则 Z 一 14S,q) ,和 否 


则 Z=={S) 。 已 中 的 产生 式 可 以 用 如 下 的 映射 式 取 代 ， 

(1) 对 于 了 中 每 一 条 形 如 Ai 一 Asa 的 产生 式 , 则 在 M 中 设置 映射 式 f(As ,a) 一 Ai 

(2) 对 于 了 中 每 一 条 形 如 Ai~>a 的 产生 式 , 则 在 M 中 设置 映射 式 f(q ,a) 王 Ai 。 

[ 例 3. 16] 构造 左 线性 文法 G==({S,A,B},{a,b},P,S) 的 相应 FA, 其 中 P:S 一 Sa|Aal| 
Bb,A—>Bala,B—>Ablb, 

解 : 按 上 述 步 又 ,构造 的 FA M=({S,A,B,q),{a,b),f,q,{S)) ,其 中 f 画 成 的 状态 转换 
图 如 图 3. 11 所 示 。 

相反 地 , 若 给 出 FA M, 读 者 一 定 也 能 写 出 相应 的 左 线性 文法 Rg。 

由 上 面 几 节 介绍 可 见 Re,Rg 与 FA 三 者 的 等 价 关 系 如 图 3. 12 所 示 。 也 就 是 说 ,知道 其 
中 任意 一 个 就 可 求 出 其 他 两 个 。 虽然 直接 从 Re 写 Rg 有 困难 ,但 通过 FA 总 是 可 以 写 出 的 。 


图 3.11 由 左 线 性 Rg 构造 FA 图 3.12 Re.Rg,FA 三 者 关系 


对 于 输入 串 ababba, 其 相应 的 语法 树 如 下 ,我 们 用 数字 将 归 约 顺序 标 出 , 则 容易 看 出 :每 
次 归 约 所 得 的 句 型 都 是 规范 句 型 。 而且, 如 果 文 法 的 任 两 个 产生 式 无 相同 的 右 部 , 则 每 次 所 得 
的 符号 都 是 唯一 的 。 
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步骤 当前 状态 余 留 的 输入 符号 


Ll qo ababba 
2 A babba 
3 B abba 
4 A bba 

5 B ba 

6 S a 

和 € 


3.2 词法 分 析 程序 


词法 分 析 程 序 的 任务 是 从 左 至 右 扫 描 源 程序 的 字符 串 ,按照 词法 规则 (正规 文法 规则 ) 识 
别 出 一 个 个 正确 的 单词 ,并 转换 该 单词 成 相应 的 二 元 式 ( 类 号 ,内 码 ) 交 语法 分 析 使 用 。 从 整个 
编译 程序 的 结构 上 看 ,将 词法 分 析 安 排 成 一 遍 编 译 是 有 好 处 的 。 虽 然 词 法 分 析 比 较 简单 ,但 有 
些 高 级 语言 的 源 程序 受到 格式 限制 ,处 理 起 来 比较 麻烦 ,专门 安排 一 遍 , 以 便于 处 理 这 些 枝 节 
问题 。 词 法 分 析 结果 提供 给 语法 分 析 的 是 一 串 规 格 统一 的 单词 二 元 式 , 显 得 清晰 、 简 洁 。 然 
而 ,将 它 单独 划 成 一 遍 编 译 又 显得 太 浪费 时 间 了 ,因为 词法 分 析 的 结果 要 存 和 人 外 部 介质 ,等 到 
语法 分 析 时 又 从 外 部 介质 调 入 内 存 , 这 一 进 一 出 的 开销 是 徒然 的 。 即 使 现在 计算 机 的 内 存 比 
较 大 ,可 以 不 必 将 词法 分 析 结 果 输 出 到 外 部 介质 ,但 作为 单独 一 遍 也 多 做 了 一 些 不 必要 的 重复 
工作 ,所 以 这 种 保存 整个 源 程序 的 内 码 形式 似乎 没有 必要 。 现 在 更 常用 的 是 把 词法 分 析 程 序 
安排 成 一 个 子 程序 (过 程 ), 每 当 语 法 分 析 需 要 一 个 单词 时 就 调用 这 个 子 程序 。 每 调用 一 次 , 它 
就 向 语法 分 析 程 序 提 供 一 个 单词 的 二 元 式 :( 类 号 ,内 码 )。 对 于 EL 语言 的 编译 程序 我 们 没有 
采用 这 种 单词 的 二 元 式 形式 ,因为 标识 符 的 内 码 要 到 语义 分 析 阶 段 才能 知道 ,所 以 在 词法 分 析 
阶段 ,只 把 “单词 "转化 为 “类 号 ”以 供 语法 分 析 使 用 。 


3.2.1 预 处 理 与 超前 搜索 


1) 预 处 理 
词法 分 析 程 序 通常 又 叫 作 扫描 器 。 扫 描 器 处 理 的 往往 是 以 行为 单位 的 源 程序 语句 , 它 假 
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定 已 从 外 部 介质 调 人 到 内 存 的 输入 缓冲 区 。 对 于 许多 程序 设计 语言 来 说 ,为 了 便于 词法 分 析 ， 
往往 需要 对 源 字符 串 进行 预 处 理 。 其 理由 是 : 

(1) 源 程序 中 往往 包含 注解 部 分 , 它 不 是 程序 的 必要 组 成 部 分 ,仅仅 用 于 改善 程序 的 可 读 
性 和 易 理 解 性 ,与 词法 分 析 无 关 , 应 予以 删除 。 源 程序 中 还 包含 一 些 无 用 的 空格 、 跳 格 、 回 车 换 
行 等 编辑 字符 (当然 ,出 现在 字符 常数 中 的 这 些 字符 是 有 用 的 ) ,也 应 删除 。 

(2) 一 行 语句 结束 应 配 上 一 个 特殊 字符 ,以 示 
语句 结束 ( 辟 如 加 上 “#”)。 此 外 ,有 些 语 言 还 得 识 
别 标号 区 、 区 分 标号 语句 , 找 出 续 行 符 连接 成 完整 语 
句 等 。 

(3) 输出 源 程序 清单 ,以便 复核 。 

预 处 理 之 后 送 入 扫描 缓冲 区 ,这 样 从 扫描 缓冲 
区 中 读 到 的 字符 都 是 有 用 字符 。 词 法 分 析 程 序 便 将 
扫描 缓冲 区 中 的 字符 串 当 作 源 程序 处 理 。 扫描 缓冲 区 

现在 ,通常 把 预 处 理 程序 编写 成 扫描 程序 的 子 EE 
程序 , 供 扫描 程序 调用 。 壁 如, 当 扫描 程序 发 现 现在 [ro 
是 在 读 注 解 行 , 便 调用 剔除 注解 行 的 子 程序 进行 处 
理 。 这 样 便 不 再 另外 设置 扫描 缓冲 区 ,而 直接 将 输 
人 缓冲 区 中 字符 串 当 作 源 程序 处 理 。 词 法 分 析 器 的 
预 处 理 框 图 如 图 3. 13 所 示 。 

2) 超前 搜索 

一 般 高 级 语言 不 必 超 前 搜索 ,每 个 单词 间 有 明确 的 界 符 。 每 个 单词 ,只 要 是 合法 的 ,其 含 
义 也 都 有 了 唯一 的 定义 。 但 是 ,有 一 些 语言 如 FORTRAN., 它 的 单词 间 没 有 明确 的 界 符 , 有 一 些 
单词 既 可 以 做 标识 符 , 也 可 以 做 基本 字 。 究 竞 起 什么 作用 .要 在 上 下 文 环境 中 才能 识别 。 也 就 
是 说 , 当 读 到 一 个 单词 之 后 , 它 不 知道 该 单词 起 什么 作用 ( 即 不 知 转换 成 什么 类 号 ) ,要 向 前 多 
读 几 个 字符 后 才能 确定 。 为 此 ,在 读 到 一 个 单词 之 后 ,在 输入 缓冲 区 或 扫描 缓冲 区 上 做 个 标 
记 , 然 后 继续 向 前 读 , 直 至 明确 了 刚才 单词 的 涵义 之 后 ,再 退回 到 做 标记 处 重新 分 析 。 这 个 过 
程 称 超前 搜索 。 

[ 例 3. 17] 下 面 有 4 句 FORTRAN 语言 的 语句 : 


源 程序 输入 


输入 缓冲 区 


控制 信号 
3.13 词法 分 析 程 序 预 处 理 框 图 


(1) IF(M)10,20,30 算术 条 件 语句 
(2) IF(5. EQ. M) GOTO 50 逻辑 条 件 语句 
(3) IF=100 简单 变量 赋值 语句 
(4) IF(100) 王 ABC 下 标 变量 赋值 语句 


当 读 到 IF 时 不 能 区 分 IF 做 什么 用 ,需要 超前 搜索 。 因 此 ,这 时 需 做 一 标记 ( 即 留 下 当前 
缓冲 区 的 指针 ), 然 后 继续 向 前 读 字符 。 若 下 一 个 字符 不 是 “(”, 则 可 以 肯定 I 是 简单 变量 , 否 
则 还 要 继续 向 前 读 , 直 至 “")”。 然 后 再 读 一 个 字符 , 若 它 是 数字 , 则 此 IF 语句 为 算术 条 件 语句 ; 
车 它 是 字母 , 则 IF 语句 为 逻辑 条 件 语 句 ;否则 ,此 IF 为 数组 变量 。 明 确 了 IF 的 作用 之 后 , 退 
回 到 刚才 的 标记 处 ,而 语法 分 析 也 进入 到 相应 的 分 析 环 境 继 续 进行 分 析 。 

由 于 超前 搜索 只 涉及 少数 高 级 语言 的 编译 ,今后 不 再 详细 介绍 。 
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3.2.2 扫描 器 的 输出 格式 


1) 单词 的 分 类 

单词 在 高 级 语言 中 起 着 各 种 不 同 作 用 ,它们 通常 可 分 为 五 类 ,下 面 以 Pascal 语言 为 例 介绍 。 

(1) 基本 字 :又 称 关 键 字 或 保留 字 , 它 是 程序 语言 中 具有 特殊 含义 的 标识 符 , 一 般 不 挪 作 
它 用 ,对 编译 程序 而 言 , 它 起 着 分 隔 语法 成 分 的 作用 。 这 类 单词 如 program, var, procedure， 
begin,end,if,while,repeat,ease 等 。 

(2) 标识 符 : 用 于 表示 各 种 名 字 , 如 变量 名 、 数 组 名 ,函数 名 、 过 程 名 等 。 

(3) 常量 :有 整 型 常量 、 实 型 常量 ,布尔 常量 .字符 常量 

(4) 运算 符 : 又 可 分 为 算术 运算 符 ( 十 ,一 ,* ,/ 等 )、. 逻辑 运算 符 (and,or,not) 和 关系 运算 
符 (二 ,二 = ,二 = ,= 等 )。 

(5) 界 符 : 包 括 ，,;,(,),: 等 。 由 于 运算 符 也 起 着 分 隔 运 算 对 象 的 作用 ,所 以 有 时 也 把 运 
算 符 称 作 界 符 。 

2) 扫描 器 的 输出 格式 

扫描 器 的 输出 格式 为 二 元 式 序列 ,每 个 单词 对 应 一 个 二 元 式 ,其 形式 是 (类 号 ,内 码 )。 其 中 
类 号 用 整数 表示 ,类 号 既 起 着 区 分 单词 的 种 类 又 要 方便 于 程序 的 处 理 。 通 常 按 如 下 方式 考虑 : 

(1) 每 个 基本 字 占 一 个 类 号 。 因 为 一 种 语言 的 基本 字数 量 有 限 , 在 编译 程序 内 部 通常 都 
有 一 张 基本 字 表 ,为 了 缩短 查找 时 间 , 它 是 按 字典 顺序 排序 的 。 我 们 就 把 这 张 表 内 的 各 基本 字 
编号 当 作 类 号 。 由 于 类 号 已 完全 表示 了 该 单词 特征 ,所 以 内 码 可 以 省 缺 。 

(2) 各 种 标识 符 统一 为 一 类 。 显 然 ,这 时 内 码 将 用 于 区 分 不 同 的 标识 符 名 。 通 常 把 用 于 
登记 不 同 标识 符 的 符号 表 入 口 地 址 当 作 内 码 。 这 意味 着 扫描 器 需要 兼 管 查 填 符号 表 的 工作 ， 
并 把 查 填 的 符号 表 入 口 地 址 作为 内 码 输出 。 

符号 表 的 结构 如 图 3. 14 所 示 。 符 号 表 带 有 一 个 字符 串 表 ,专门 用 于 存放 程序 中 已 出 现 的 
标识 符 和 字符 常量 。 这 种 安排 允许 标识 符 取 任意 长 度 而 不 浪费 符号 表 的 名 字 域 空间 。 符 号 表 
内 通常 包含 若干 个 域 : 如 名 字 (NAME)、 类 型 (TYPE)、 种 属 (CAT)、 值 (VAL) 和 地 址 
(ADDR) 等 。 假 定 一 行 符 号 表 需 m 个 单元 ,符号 表 从 单元 开始 填写 ,那么 标识 符 WANG 的 
相对 应 内 码 为 k,LENGTH 的 相对 应 内 码 便 为 k 十 m…… 


3.14 符号 表 结 构 
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(3) 常量 。 常 量 有 好 几 种 类 型 ( 整 型 、 实 型 .逻辑 型 和 字符 型 等 ) ,通常 按 不 同类 型 分 成 相 
应 类 号 。 同 时 每 一 类 常量 也 要 设置 相应 常量 表 。 
整 常量 直接 转换 成 二 进 制 代码 ,其 算法 如 下 : 
BIN :一 0; 
GET(CHR); 
WHILE CHR=DIGIT DO 
BEGIN 
X:=ORD(CHR)—48; 
BIN:=BIN* 10+X; 
GETCCHR)， 
END; 
然后 根据 BIN 的 内 容 查 造 整 常量 表 , 将 其 地 址 作为 内 码 输 出 。 
实 常量 通常 是 转换 成 浮 点 数 ,然后 查 造 实 常量 表 , 将 其 地 址 作为 内 码 输出 ,如 : 
实 常量 表 


实 常数 地 址 二 元 式 

3. 141 59 n 十 0 输出 (x,n 十 0) 
25.3 n+4 (x,n+4) 
0.005 n 十 8 (xn 十 8) 


其 中 x 为 实 常 量 的 类 号 ,n 为 实 常 量 表 的 开始 地 址 ,每 个 实 常 量 占 4 个 单元 。 

对 于 逻辑 常量 和 字符 常量 ,一 般 就 直接 用 其 ASCII 值 查 造 相 应 表 。 

(4) 界 符 。 界 符 包括 运算 符 在 内 ,通常 是 一 符 一 类 号 ,或 两 符 一 类 号 ,内 码 也 缺 省 。 

对 于 EL 语言 ,其 类 号 见 表 3.4 所 示 。 基 本 字 按 字典 顺序 排序 ,以 便 采用 二 分 查找 技术 。 
常量 仅 考虑 无 符号 数 一 种 。 

表 3.4 单词 符号 及 其 类 号 (EL 语言 ) 
单词 符号 
begin 
do 


function 


integer not 


procedure program 


real then 


var while 


标识 符 无 符号 数 


) 


3.2.3 扫描 器 的 设计 


1) 词法 规则 与 状态 转换 图 

以 Pascal 语言 的 词法 规则 为 例 , 用 BNF 式 写 出 其 规则 如 下 : 

(1) 《标识 符 ):: 二 (字母)| (标识 符 )(( 字 母 )| (数字 >) 

(2) (整数 ): :== (数字 ) | (整数 ) (数字 》 

(3) 《有 符号 整数 ):: 二 (十 | 一 |e) (整数 》 

(4)〈 无 符号 数 ) : :一 (整数 ) | (整数 ). (整数 ) | (整数 )E( 有 符号 整数 ) | (整数 ). (整数 )E 

《有 符号 整数 》 

(5) ( 界 符 )::= 十 | 一 | *1/| 二 |=|<|.|;| :| 

(6)〈 双 界 符 ): :一 二 >>|:=| 盖 =| 志 一 |…… 

这 些 规则 都 满足 ASCII 字符 集 上 的 正规 式 要 求 ,所 以 很 容易 构造 它 的 状态 转换 图 。 为 了 
表示 得 简洁 一 点 ,以 后 用 “一 ”代替 “:: = 二”, 并 将 上 列 的 非 终 结 符 与 终结 符 用 相应 的 缩写 符号 表 
示 : 辟 如 (标识 符 ) 写 作 (1d), (整数 ) 写 作 (Int), (无 符号 数 ) 写 作 (Real), (有 符号 整数 ) 写 作 
《Sint) , 《字母 ;写作 1, (数字 ) 写 作 d,( 界 符 ) 写 作 (Bd) ,( 双 界 符 ) 写 作 (Dbd)。 

下 面 分 别 将 上 述 规则 用 相应 的 状态 转换 图 表示 。 

(1) 标识 符 (Id) 一 !| (Id(1|d) ,其 对 应 正规 式 Re 为 1(11d)* ,其 状态 图 画 成 FA， 


1 
1 (| d)* 1 
-OOOO 一 -© 
为 了 识别 方便 ,状态 图 略 作 点 修改 : 仅 当 读 到 非 字 母 , 非 数字 字符 ( 即 其 他 字符 ) 时 才 进 入 终 态 ， 


这 时 表示 已 识别 一 个 单词 。 当 识别 了 一 个 单词 时 要 做 些 相 应 的 语义 动作 , 壁 如 查找 基本 字 表 ， 
查 造 符号 表 送 回 单词 的 二 元 式 , 并 将 多 读 的 字符 退回 给 扫描 缓冲 区 等 。 这 样 状态 图 可 画 成 : 


(2) 同样 ,整数 (Int) 一 d| 《Int)d, 相 应 正规 式 Re 为 dd”。 其 状态 图 画 成 : 


-0 = -OrQmaO 


(3) 有 符号 整数 (Sint) 习 (十 | 一 |e) 《Int) ,相应 正规 式 Re 为 (十 | 一 |e)dd* ,状态 图 为 : 
d a d 
OTOLEO > -THOEO 
8 
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(4) 无 符号 数 (Real) 一 (Int) | (Int). 《Int) | 《Int)E《Sint) | 《Int). (Int) E《Sint), 相应 正规 
式 Re 为: 
(Real) 一 dd |dd* .dd* 1dd*E( 十 | 一 |e)dd 1dd .dd’* E(+|—|e)dd* 
一 dd (el.dd* |(el.dd* )E( 十 | 一 |e)dd” ) 
一 dd" (el.dd* )(el 下 (十 | 一 le)dd ) 
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最 后 ,将 这 些 转换 图 初 态 连 在 一 起 , 便 构成 识别 Pascal 语言 的 FA, 如 图 3.15 所 示 。 


二 
<D 1 
d 
d - d 
— OOOOEOOL) 
其 他 

+ 其 他 其 他 
= 其 他 
轩 其 他 
* 其 他 

/ 


| 其 他 
——Ow 


3.15 识别 Pascal 语言 的 FA 


， 状态 图 只 有 一 个 初 态 , 表 示 分 析 从 一 个 新 单词 开始 ;有 若干 个 终 态 结 点 ,表示 识别 到 不 
同 单词 。 


， 实 际 情况 要 复杂 一 些 , 比 如 “十 ”“ 一 ”可 以 表示 运算 符 , 也 可 以 表示 正 负 号 ;“. "可 以 表 
示 句 号 ,也 可 表示 小 数 点 。 这 可 采用 前 面 介绍 的 向 前 搜索 技术 ,或 退回 若干 字符 ,明确 所 处 环 
境 后 青 扫描 ,在 具体 的 扫描 器 编写 时 应 予以 考虑 。 
2) 扫描 器 的 设计 
我 们 把 扫描 器 当 作 语法 分 析 的 一 个 过 程 , 当 语法 分 析 需 要 一 个 单词 时 , 便 调用 扫描 器 。 扫 
描 器 从 初 态 出 发 , 当 识别 一 个 单词 后 便 进 入 终 态 ,同时 送出 二 元 式 (类 号 ,内 码 )。 由 此 可 见 扫 
描 器 的 主要 工作 是 实现 状态 转换 , 当 状 态 转换 时 执行 相应 语义 动作 ,譬如 查 造 符 号 表 等 。 下 面 
用 类 Pascal 语言 来 描述 扫描 器 的 算法 。 为 了 简单 起 见 对 数 的 处 理 仅 给 出 整 常数 的 识别 算法 。 
PROCEDURE SCANNER:; 
BEGIN 
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TOKEN :三 


1/ 1/ 


GETCHAR:; 


GETNBC; 


CASE CHAR OF 
'a'..'z :BEGIN 


/ 


WHILE(CHAR='1)OR(CHAR='"d')DO 
BEGIN 
CONCAT:; 
GETCHAR 
END;RETRACT; 
c:=RESERVE; 
IF c= —1 THEN RETURN(21,SYMBOL) 
ELSE RETURN(c, ); 
END; 


0'..'9':BEGIN 


WHILE CHAR='d' DO 
BEGIN CONCAT; 
GETCHAR:; 

END; 

RETRACT; 

RETURN(22.,DTB); 
END; 


:RETURN(34 ,一 ); 
:RETURN(35,—); 
:BEGIN 


GETCHAR:; 
IF CHAR='='THEN RETURN(42, ) 
ELSE BEGIN RETURN(39, );RETRACT END 
END; 


:BEGIN 


GETCHAR:; 

IF CHAR='='THEN RETURN(43, ) 

ELSE BEGIN RETURN(40, ):RETRACT END 
END; 
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:BEGIN 
GETCHAR:; 
IF CHAR='='THEN RETURN(44, ) 
ELSE BEGIN RETURN(25, ):RETRACT END 
END; 
ELSE ERROR 
END OF CASE 
END. 
在 这 段 程序 中 引进 的 变量 与 过 程 (或 函数 ) 有 : 
GODCHAR :字符 变 量 , 存 放 由 GETCHAR 过 程 最 新 读 进 的 源 程序 中 的 一 个 字符 。 
@TOKEN: 字 符 数组 ,存放 构成 单词 符号 的 字符 串 。 对 于 标识 符 或 数 ,其 长 度 原则 上 不 
受 限制 。 但 在 编译 时 往往 只 取 定 字 长 ,所 以 TOKEN 取 一 定 长 度 。 
@GETCHAR :过程 名 ,其 任务 是 从 输入 缓冲 区 或 扫描 缓冲 区 中 取 一 个 字符 到 CHAR 中 ， 
并 将 指针 向 前 移 一 字符 。 在 EL 语言 的 词法 分 析 中 , 它 还 兼 管 从 外 部 介质 读 进 一 行 源 语句 到 
输入 缓冲 区 中 。 当 调用 GETCHAR 发 现 缓冲 区 空 时 , 便 自动 从 外 存 读 一 行 源 语句 到 缓冲 
区 内 。 
@GETNBC: 过 程 名 ,用 作 检 查 CHAR 中 是 否 为 空白 字符 ,若是 则 再 调用 GETCHAR, 直 
至 CHAR 中 为 非 空 白字 符 为 止 。 在 EL 语言 词法 分 析 中 , 它 兼顾 滤 去 注解 部 分 。 
@CONCAT: 过 程 名 ,其 功能 是 把 CHAR 中 的 字符 连接 到 TOKEN 上 ,直至 TOKEN 装 
满 为 止 , 即 相当 于 执行 :TOKEN:=TOKEN 二 CHAR。 
@RETRACT: 过 程 名 , 它 把 输入 缓冲 区 的 读 指针 退回 一 字符 , 即 相 当 于 将 多 读 的 一 个 字 
符 退回 给 输入 缓冲 区 。 
@RESERVE: 函 数 名 ,用 于 实现 查找 基本 字 表 , 若 基 本 字 表 是 按 字典 顺序 排序 的 , 则 采用 
二 分 法 查找 ,否则 就 用 线性 查找 。TOKEN 中 的 内 容 若 在 RESERVE 表 中 找到 ,那么 表示 
TOKEN 中 的 内 容 是 基本 字 , 便 返回 RESERVE 表 中 相应 序号 (将 它 作 为 类 号 送 给 语法 分 析 
程序 使 用 ) ;否则 返回 一 1, 表 示 TOKEN 中 的 内 容 不 是 基本 字 。 
@SYMBOL :函数 名 ,用 于 实现 查 造 符号 表 。 符 号 表 的 组 成 有 各 种 技术 ,比如 散 列 表 、 二 
又 树 表 .线性 表 等 等 。 它 根据 TOKEN 内 的 单词 名 在 符号 表 中 查找 ,车 找到 , 便 返 回 相 应 的 序 
号 ; 若 查 不 到 , 便 在 符号 表 中 重新 造 一 项 ,并 将 新 造 的 符号 表 入 口 地 址 作为 序号 返回 。 
@DTB: 函数 名 ,其 功能 是 首先 将 ASCII 的 数字 串 转换 成 机 内 二 进 制 代码 ,然后 查 造 整 常 
数 表 , 并 返回 该 表 的 序号 。 
@ERROR :过 程 名 ,通常 是 用 于 向 用 户 报告 出 错 的 字符 本 身 或 整 常数 超过 MAXINT 值 
等 ,并 指出 在 源 程序 中 的 相应 行 、 列 号 ,以 便 用 户 纠正 之 。 
当 进 入 每 一 个 终 态 结 点 时 ,都 有 RETURN(c,VAL) 语 句 将 二 元 式 返 回 给 调用 的 过 程 ,其 
中 e 为 类 号 ,VAL 表示 内 码 。 如 果 多 读 了 字符 ,还 要 求 RETRACT 过 程 实现 退回 给 扫描 缓冲 
50 


区 。 扫 描 器 完整 框图 如 图 3. 16 所 示 。 
源 程序 输入 


/ 哑 / 一 王 本 入 人 区 | 


调用 返回 
图 3.16 词法 分 析 框 图 

当 读 到 “二 ”,“ 二 ”,“,” 等 字符 时 ,不 认为 已 识别 到 一 个 单词 ,而 是 要 再 读 一 个 字符 。 若 
“过 ”后 跟 一 个 “==”, 则 将 两 个 字符 拼 成 一 个 单词 “二 ==”, 类 似 的 还 有 “二”", “二 二 ”等 。 

两 个 字符 连 在 一 起 ,其 识别 的 优先 级 大 于 一 个 字符 的 优先 级 。 因 此 在 SCANNER 中 , 先 
判断 是 否 满足 两 个 字符 单词 的 要 求 , 若 不 满足 才 识 别 单个 字符 的 单词 。 

3) 状态 矩阵 的 应 用 

我 们 曾 说 过 ,用 状态 矩阵 来 代替 状态 图 便于 计算 机 处 理 。 特 别 是 当 状 态 数 很 多 时 ,程序 必 
定 很 宛 长 而 且 很 不 直观 ,用 状态 矩阵 可 以 使 得 扫描 器 程序 很 简单 。 它 把 状态 转换 及 相应 的 语 
义 动 作 都 当 作 矩阵 的 元 素 填 在 矩阵 表 中 ,从 而 显得 结构 很 清晰 ,便于 软件 的 修改 .调试 和 维护 。 
状态 矩阵 的 结构 如 下 : 


> 
al yaz… 二 an 
S 
0 
时 
2 
fi, a) | entry (i, ai) 
下 一 状态 语义 子 程序 入 口 
i 
m 


每 个 矩阵 元 素 分 两 部 分 :一 部 分 指出 在 i 状态 下 , 当 移 进 a 时 应 转向 的 状态 fGi'ai); 另 一 
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部 分 指出 在 i 状态 下 , 当 移 进 a 时 应 执行 哪些 语义 动作 (entry(i,a;)), 这 里 也 仅 给 出 语义 子 程 
序 的 入 口 地 址 。 
利用 状态 矩阵 ,也 能 编制 一 个 扫描 器 的 算法 。 这 个 算法 非常 简单 , 它 完 成 的 动作 是 : 
(1) 从 输入 缓冲 区 读 取 一 个 字符 并 转换 成 相应 序号 ; 
(2) 查 状态 矩阵 ,执行 相应 语义 动作 ; 
(3) 决定 转向 的 下 一 状态 ; 
(4) 若 已 识别 一 单词 便 结 束 , 和 否则 继续 上 述 动作 。 
将 此 算法 用 类 Pascal 语言 描述 如 下 : 
PROCEDURE SCANNERI1 
1,J:INTEGER; 
SYM:CHAR 
FLAG:BOOLEAN:; 
STATE,ENTRY:ARRAY [0..m,1..n] OF INTEGER; 
{m 为 状态 数 ,n 为 字母 表 上 的 符号 数 } 
BEGIN 
I: 二 0; /x* 从 0 状态 开始 x*/ 
FLAG:=true; 
WHILE FLAG DO 
BEGIN 
GETCHAR; /* 取 一 字符 到 SYM 单元 * / 
J] :二 CTN(SYM); /* 将 字符 转化 成 序号 送 Jx / 
SEMANTICCENTRY(I,J));，/* 执行 语义 子 程序 * / 
1: 二 STATE(I,J); /x* 形成 下 一 状态 */ 
END 
END， 
其 中 ,SEMANTIC 是 一 组 语义 子 程序 ,其 动作 与 上 一 个 扫描 器 中 的 语义 子 程序 相 类 似 ， 
无 非 是 查找 基本 字 表 、 查 造 符号 表 , 继 续 取 一 字符 、 拼 接 字符 以 及 返回 一 个 单词 的 二 元 式 等 。 
若是 返回 动作 ,表示 已 识别 一 个 单词 .可 将 FLAG 变 为 false, 循 环 便 结束 ,返回 至 语法 分 析 程 
序 继续 分 析 。 


3.3 词法 分 析 程序 的 自动 生成 


从 前 面 的 介绍 可 知 , 词 法 分 析 程 序 实 际 上 是 一 张 状态 转换 矩阵 (或 状态 转换 图 ) 和 一 个 控 
制程 序 。 控 制程 序 很 简单 ,关键 是 构造 状态 转换 矩阵 及 其 相应 的 语义 动作 。 构 造 状 态 转换 矩 
阵 是 根据 每 类 单词 的 正规 式 构造 相应 的 DFA, 然 后 综合 成 一 张 识别 所 有 单词 的 DFA, 其 中 映 
射 函 数 就 是 状态 转换 矩阵 。 如 果 在 转换 矩阵 中 配 上 适当 的 语义 动作 便 完 成 了 词法 分 析 程 序 的 
任务 。 前 面 介绍 的 是 手工 构造 过 程 .这 一 节 讨论 如 何 根 据 单词 的 正规 式 及 其 相应 的 语义 动作 
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自动 产生 词法 分 析 程 序 。 


3.3.1 LEX 语 言 


一 组 单词 的 正规 式 及 其 相应 的 语义 动作 叫做 LEX 语言 。 它 是 用 来 描述 词法 分 析 程 序 的 ， 
因此 通过 LEX 编译 程序 便 可 生成 词法 分 析 程 序 。 有 了 词法 分 析 程 序 就 可 以 对 某 高 级 语言 的 
输入 源 程序 字符 串 进 行 词 法 分 析 ,产生 单词 的 内 部 形式 (类 号 ,内 码 ) ,这 个 过 程 可 用 图 3. 17 来 
表示 。 


单词 内 部 形式 (类 号 ， 内 码 ) 


词法 分 析 程序 


LEX 编 译 程序 
3.17 LEX 编译 系统 


一 个 LEX 源 程 序 主要 包括 两 部 分 :一 部 分 是 正规 式 的 辅助 定义 , 另 一 部 分 是 识别 规则 。 
辅助 定义 是 一 串 如 下 形式 的 LEX 语句 : 


D. 一 R。 
其 中 ,每 个 Ri 是 一 个 正规 式 ,D; 是 代表 这 个 正规 式 的 简 名 。 我 们 限定 :在 Ri 中 只 许 出 现 字母 
表 之 中 的 字符 和 前 面 已 定义 的 简 名 Di ,D; ,…:,D-_; ,不 得 出 现 未 定义 的 简 名 。 因 为 只 有 这 样 
才能 保证 辅助 定义 是 正规 文法 所 对 应 的 正规 式 , 否 则 它 不 能 保证 是 正规 文法 所 对 应 的 语言 。 
比如 : 
Di 一 aDib ，Di 一 ab 
这 便 是 租 入 式 文法 ,因此 它 对 应 的 语言 不 再 是 正规 式 了 。 
使 用 这 种 辅助 定义 ,可 以 为 某 一 种 程序 设计 语言 定义 各 种 单词 符号 。 例 如 ,标识 符 (iden) 
可 定义 为 : 
letter>albl*…|z 
digit>0|1|2|.…|9 
iden—>letter{letter | digit} 
整 型 常数 或 无 符号 整 型 常数 可 定义 为 : 
integer> digit{ digit} 
带 符号 整 常 数 定义 为 : 
sign> 十 | 一 |e 
signedinteger>sign integer 
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不 带 指数 部 分 的 实 常数 可 定义 为 : 
decimal—>signedinteger. integer | signedinteger 
最 后 ,实数 可 定义 为 : 
real>decimal E signedinteger 
使 用 这 种 辅助 定义 保证 了 Ri 必定 是 之 上 的 一 个 正规 式 。 
当 为 每 个 正规 式 配 上 相应 的 语义 规则 后 便 形 成 LEX 语句 形式 : 


Pi {Al} 
P; {A:} 
Pu。 {Au》 


其 中 ,P; 为 正规 式 ,这 表明 了 这 种 词法 分 析 程序 只 能 识别 具有 词 型 为 P, ,P: ,…',Pu 的 单词 符 
号 ;{Ai) 为 其 对 应 的 语义 子 程序 , 它 实际 上 是 一 段子 程序 , 当 识别 出 词 型 为 P; 的 单词 之 后 , 词 
法 分 析 程 序 所 应 采取 的 动作 ,其 中 最 基本 的 动作 是 “返回 词 型 P; 的 二 元 式 表示 形式 (类 号 ,内 
码 )”。 这 可 写成 过 程 语 句 RETURN(C,LEXVAL)。 如 果 P; 是 标识 符 , 则 LEXVAL 为 TO- 
KEN; 若 P; 是 整 常数 , 则 将 TOKEN 中 的 内 容 通 过 十 进 制 - 二 进 制 转换 函数 DTB 转换 成 二 进 
制 值 ;否则 ,LEXVAI 便 无 定义 , 即 不 输出 “内 码 ” 这 一 栏 。 
对 于 EL 语言 的 单词 符号 ( 见 表 3. 4) ,可 以 写成 如 下 的 LEX 源 程序 形式 : 
辅助 定义 式 
letter—>albl.…|z 
digit—>0|1|.…|9 


识别 规则 
正规 式 语义 动作 
and {RETURN(0, 一 )} 
begin {RETURN(1, 一 )} 
write RETURN(20, 一 )} 


{ 
letter{letter | digit} {RETURN(21, TOKEN)} 
digit (digit} ‘RETURN(22;DTB)} 
{RETURN(G25,=)} 


机 {RETURN(34, 一 )} 
至 {(RETURN(35 ,一 )} 


和 {(RETURN(44,—)} 
按照 这 种 LEX 源 程 序 形式 , 当 LEX 编译 程序 识别 了 一 个 字符 串 壁 如 “begin”, 它 既 属 于 
基本 字 , 又 属于 标识 符 ,那么 执行 哪 一 个 识别 规则 呢 ? 这 里 应 对 词法 分 析 程 序 的 控制 程序 作 些 
约定 。 
(1) 最 长 子 串 匹 配 原则 。 
现在 来 看 一 看 LEX 的 词法 分 析 程 序 是 如 何 进行 工作 的 。 它 逐一 扫描 输入 串 的 每 一 字符 ， 
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寻找 一 个 最 长 子 串 匹配 某 个 P; ,把 这 个 串 放 入 TOKEN 缓冲 区 (实际 上 ,通常 是 边 读 和 人 字符 ， 
边 拼接 人 TOKEN 中 ) ,然后 调用 相应 Ai 子 程序 ,输出 该 单词 的 二 元 式 ( 类 号 ,内 码 ) 交 给 语法 
分 析 程 序 去 处 理 。 这 里 所 说 的 最 长 子 串 是 指 当 输入 串 中 有 短 子 串 和 长 子 串 分 别 与 Pi, Ps 匹配 
时 ,应 该 选择 长 子 串 与 P, 匹配 。 例 如 ,输入 串 “…: 王 …”, 当 读 到 “:? 时 与 规则 25 匹配 ,但 
“: 一 ”又 与 规则 44 匹配 ,后 者 比 前 者 长 ,所 以 应 认为 :=” 是 一 个 符号 。 这 就 是 最 长 子 串 匹配 
原则 。 

(2) 优先 原则 。 

LEX 源 程 序 中 ,语句 的 前 后 顺序 是 有 意义 的 , 即 认为 排 在 前 面 的 语句 优先 级 高 ,这 样 单词 
“begin” 虽 然 与 规则 1 和 规则 21 都 匹配 ,但 规则 1 排 在 前 面 , 所 以 认为 *begin" 是 基本 字 而 不 是 
标识 符 , 应 该 做 RETURN(1, 一 ) 语 义 动 作 。 


3. 3.2 LEX 编译 程序 的 构造 


LEX 编译 程序 旨 在 把 一 个 LEX 源 程 
序 改造 成 为 一 个 词法 分 析 程 序 L, 这 个 词 
法 分 析 程 序 L 将 像 一 个 有 限 自 动机 那样 进 
行 工作 。LEX 程序 的 编译 程序 生成 过 程 
是 很 简单 的 。 首 先 ,对 每 个 正规 式 P; 构造 
一 个 相应 的 不 确定 有 限 自动 机 Mi; 然 后 ， 
引进 一 个 初 态 X, 通 过 。 弧 (如 图 3. 18 所 图 3.18 LEX 编译 程序 的 状态 图 
示 ) 把 这 些 自动 机 连 成 一 个 新 的 NFA; 最 后 ,用 子 集 法 把 它 改 造成 一 个 等 价 的 DFA( 必 要 时 ， 
还 可 以 对 这 个 DFA 进行 最 小 化 ,不 过 这 时 的 等 价 状态 还 应 考虑 语义 动作 应 相同 ) 。 

根据 LEX 程序 的 要 求 , 在 LEX 编译 程序 中 还 应 注意 以 下 几 点 ; 

(1) 首先 ,在 原来 的 每 个 NFA Mi 中 都 有 它 自己 的 终 态 , 它 表明 一 个 匹配 于 P; 词 型 的 输 
入 子 串 Pi 已 被 识别 到 。 一 旦 把 它们 合并 成 一 个 DFA 后 ,在 一 个 状态 子 集 中 可 能 包含 有 若干 
个 不 同 的 终 态 ,而 且 这 个 DFA 终 态 和 通常 意义 的 终 态 也 有 所 不 同 。 因 为 我 们 要 求 的 是 匹配 最 
长 的 子 串 , 所 以 在 到 达 某 个 终 态 之 后 ,这 个 DFA 应 继续 工作 下 去 ,以 便 寻 找 与 更 长 的 子 串 相 匹 
配 , 直 至 无 法 继续 前 进 为 止 ( 即 到 达 这 样 一 个 状态 , 它 对 所 面临 的 输入 字符 没有 后 继 状 态 ) 。 

(2) 当 到 达 * 无 法 继续 前 进 ” 时 ,就 回头 检查 DFA 所 经 历 的 每 个 状态 子 集 ,从 后 面 逐 个 向 
前 检查 ,直到 某 一 个 子 集 含 有 原来 NFA 的 终 态 为 止 。 如 果 不 存在 这 种 子 集 , 则 认为 输入 串 含 
有 错误 ;如 果 这 个 子 集中 含有 若干 个 原来 NFA 的 终 态 , 则 按 优先 规则 应 与 排 在 前 面 的 词 型 P， 
相 匹 配 。 

下 面 的 例子 有 助 于 理解 上 述 思 想 。 假 定 有 一 个 如 下 LEX 程序 (动作 部 分 不 管 ): 


a {Al} 
abb {A:} 
a bb” {A;} 


识别 这 三 个 词 形 的 三 个 NFA 如 图 3. 19(a) 所 示 。 把 该 图 合并 为 一 个 NFA 后 得 到 图 3. 19 
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b) 。 再 把 这 个 图 通过 子 集 法 确定 化 以 后 ,最 后 获得 一 个 DFA ,如 图 3. 19(c) 所 示 。 

在 这 个 DFA 中 , 初 态 为 X137, 终 态 有 247,8,58 和 68。 在 前 三 个 终 态 子 集中 各 只 含 原来 
NFA 的 一 个 终 态 ( 即 2,8,8) ,因此 它们 没有 二 义 性 。 对 于 最 后 一 个 终 态 子 集 68, 其 中 6 和 8 
都 是 原来 NFA 的 终 态 , 但 由 于 6 所 代表 的 识别 规则 列 在 8 所 代表 的 规则 的 前 面 ,因此 认为 子 
集 68 代表 了 原来 6 所 识别 的 结果 ,也 就 是 说 应 做 语义 动作 { As}。 


-OO 
nOmOmomno, 


a 
arbbe 一 (7) 
(a) 


3. 19 由 词 型 构造 状态 转换 图 


人 

(1) 假定 输入 串 是 aac… ,从 X137 出 发 。 当 扫描 到 第 一 个 字符 a 时 ,进入 状态 247 ,然后 
又 见 到 a 进入 状态 7, 再 见 到 <c 时 ,“ 无 法 继续 前 进 ” 。 因 此 ,从 状态 7 逐个 向 前 检查 , 因 状 态 7 
不 是 原 NFA 的 终 态 , 所 以 一 边 退 回 ,一 边 检 查 状 态 247 ,发 现 247 是 原来 NFA 的 终 态 。 所 以 
执行 Ai 语义 动作 ,表示 识别 了 一 个 单词 a。 

(2) 假定 输入 串 是 abb… ,同样 从 X137 出 发 。 当 扫描 到 第 一 个 字符 a 时 进入 到 状态 247， 
然后 遇 到 b 时 进入 状态 58, 又 遇 到 b 时 进入 状态 68, 已 无 法 再 前 进 了 。 按 优先 规则 ,应 与 第 2 
条 规则 匹配 , 即 执行 A 语义 动作 。 这 里 ,虽然 读 了 第 一 个 字符 a 时 进入 的 状态 247 为 原 NFA 
的 终 态 ,但 根据 最 长 子 串 匹配 原则 ,应 继续 向 前 读 , 不 能 就 此 停止 ,所 以 识别 的 单词 是 abb 而 不 
是 a。 

最 长 子 串 匹配 原则 在 程序 语言 中 经 常见 到 ,比如 :二 ,二 = ,二 二, 二 = 等 都 是 。 

上 述 介 绍 中 ,确定 的 有 限 自动 机 是 用 状态 图 表示 的 。 实 际 上 ,在 计算 机 内 部 应 表示 成 状态 
和 矩阵 ,而 这 个 状态 矩阵 是 稀 下 和 矩阵 ,必须 找 一 个 紧凑 的 数据 结构 表示 之 。 上 例 的 转换 和 矩阵 如 表 
3.5 所 示 。 
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表 3.5 状态 矩阵 
状 态 状态 所 识别 的 词 形 


初 态 X137 


至 此 我 们 简要 叙述 了 LEX 编译 程序 如 何 把 一 个 LEX 源 程序 翻译 成 一 张 状态 转换 表 及 其 
有 关 控 制程 序 的 基本 工作 过 程 。 现 在 已 经 有 若干 个 用 正规 式 描述 和 构造 词法 分 析 器 的 自动 系 
统 ,使 用 这 些 系 统 可 以 很 方便 地 进行 词法 分 析 。 如 果 没 有 这 样 的 系统 ,我 们 也 能 构造 一 个 。 但 
必须 注意 ,构造 出 的 词法 分 析 程 序 的 状态 数 可 能 很 多 ,而 且 许 多 状态 可 能 很 相似 ,因此 除了 对 
DFA 进行 最 小 化 之 外 ,还 要 采用 较 好 的 数据 结构 ,以便 减 小 转换 矩阵 的 尺寸。 


习 题 


3-1 词法 分 析 程 序 的 任务 是 什么 ? 单词 输出 形式 是 什么 ? 

3-2 什么 叫 超前 搜索 ? 扫描 缓冲 区 的 作用 是 什么 ? 

3-3 设 右 线性 文法 G=({(S,A,B},{a,b},S,P), 其 中 P 组 成 如 下 : 
S>bA A>bB A>aA A-~~b Ba 

画 出 该 文法 的 状态 转换 图 。 

3-4 构造 下 述 文法 G(CS) 的 自动 机 ,该 文法 自动 机 是 确定 的 吗 ? 它 相 应 的 语言 是 什么 ? 
S-~A0 
A—>A0|S1|0 

3-5 设 有 一 个 有 限 状 态 自动 机 如 图 3. 20 所 示 , 试 分 别 为 识别 下 面 的 串 给 出 自动 机 动作 

序列 :d. ddd, 一 dd. d, 十 . dd。 


图 3.20 题 3-5 图 图 3.21 题 3-6 图 


3-6 设 有 NFA, 其 状态 转换 图 如 图 3. 21 所 示 , 试 为 其 构造 DFA ,该 自动 机 所 能 识别 的 
语言 是 什么 ? (可 用 自然 语言 回答 ) 
3-7 将 NFA M=({qo,q,qz),{a,b},f,{qo),{q1}) 用 子 集 法 确定 化 。 
其 中 ff:f(qo ,a) 二 {qi1 ,qs)， f(qo,b)= {qo} 
f(q ya) 一 {qoy,qi)， f(q ,b) 王 他 
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f(qz ,a) 一 {qo,qz}， f(qz ,b) 王 {q) 
它 能 接受 bababab 与 abababb 吗 ? 试 给 出 动作 过 程 。 
3-8 构造 下 列 正规 式 相 应 的 DFA ,并 最 小 化 。 
C1) 100|1)"* 101 
(27 1C1010” [I(OIOY" LY "0 
(3) 10((0 |1)* |11)01 
(A) 0*1* 
3-9 对 如 图 3. 22 所 示 的 有 限 状态 自动 机 中 的 (a) 进 行 确定 化 .最 小 化 ,对 (b) 进 行 最 小 


分 别 给 出 它们 识别 的 语言 (用 正规 式 表 示 )。 


图 3.22 题 3-9 图 


3-10 试 为 图 3.23 NFA M 构造 一 个 正规 文法 ,使 得 该 文法 所 定义 句子 正 是 由 该 自动 机 


接受 的 字符 串 。 
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we 


图 3.23 题 3-10 图 


3-11 对 下 面 的 正规 文法 : 
S—>aBle 
B—>bC|bD|bE 
C—>cBle 
E>cBle 
Dd 
(1) 构造 一 个 等 价 NFA MI 
(2) 将 NFA M 确定 化 ; 
(3) 化 简 成 最 小 DFA M, 并 给 出 它 识 别 的 语言 (用 正规 式 描述 )。 
3-12 已 知 Gu:S>Be B-~Af A 一 Aele 为 左 线性 文法 ,要 求 : 
(1) 构造 相应 状态 转换 图 ,由 图 检查 下 列 句子 是 否 为 合法 句子 : 
ffe, efe, efee; 


(2) 由 转换 图 构造 等 价 的 右 线性 文法 。 


3-13 假设 FORTRAN 语言 的 实数 正规 式 写 作 : 
(+|—le (Cdd*.dd*|dd*.|.dd*)(E(+|—|edd* |e)| dd* E(+|—|e)dd*) 

试 构造 相应 的 DFA ML。 

3-14 已 知 C 语言 标识 符 只 能 由 字母 .数字 和 下 划 线 三 种 字符 组 成 , 且 第 一 个 字符 必须 
为 字母 或 下 划 线 ,大 小 写字 母 被 认定 为 不 同 字符 。 试 画 出 识别 它 的 FA 和 写 出 相应 的 识别 
程序 。 

3-15 假设 定点 数 的 结构 如 下 :开始 的 正 负 号 为 任 选 ,随后 跟着 一 个 或 一 个 以 上 的 数字 ， 
再 后 为 小 数 点 ,小数 点 之 后 跟着 一 个 或 一 个 以 上 的 数字 。 试 给 出 ， 

(1) 该 定点 数 的 正规 式 ; 

(2) 正规 文法 ; 

(3) 识别 它 的 FA; 

(4) 编写 相应 识别 过 程 。 

3 一 16 假定 某 语言 允许 使 用 十 六 进 制 数 ,其 规定 是 :必须 以 十 进 数字 打头 ,以 H 为 结尾 ， 
数 中 允许 使 用 字母 A,B,C,D,E,F 分 别 用 于 表示 10,11,12,13,14,15。 试 设计 一 个 FA( 或 状 
态 图 ) ,使 它 能 识别 十 进 制 数 和 十 六 进 制 数 ,并 编制 相应 的 识别 程序 ,而 且 将 数 转换 成 机 内 二 进 
制 数 。 

3-17 构造 一 个 {I,N,O,T} 上 最 小 的 DFA M, 它 只 能 识别 词 型 为 IN,INTO,TO,NO， 
NOT 和 ON 所 组 成 的 字符 串 , 即 认为 字符 串 “”NOONNOTINTOINONTO” 为 合法 的 字符 串 。 
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4 目 上 而 下 语法 分 析 


正规 文法 和 有 限 自动 机 仅 适 合 于 描述 和 识别 高 级 语言 的 各 类 单词 ,不 能 用 于 描述 和 识别 
由 这 些 单词 组 成 的 各 种 高 级 程序 设计 语言 的 语句 。 但 是 , 绝 大 部 分 高 级 程序 设计 语言 的 语句 
却 可 以 用 上 下 文 无 关 文 法 (CFG) 来 描述 ,而 下 推 自动 机 (PDA) 又 恰好 能 识别 CFG 所 描述 的 语 
言 。 因 此 ,上 下 文 无 关 文 法 及 其 对 应 的 下 推 自 动机 便 成 为 编译 技术 中 语法 分 析 的 理论 基础 。 
由 第 2 章 对 上 下 文 无 关 文 法 的 定义 知道 它 的 产生 式 具 有 下 述 形式 : 

A—>B AEVN,BEV” 

那么 , 它 所 对 应 的 下 推 自动 机 是 什么 样 的 结构 呢 ? 有 了 下 推 自动 机 ,怎样 识别 语句 呢 ? 这 
涉及 自 上 而 下 语法 分 析 ( 反 复 使 用 不 同 产生 式 进 行 推导 以 谋求 与 输入 符号 串 相 匹配 ) 和 自 下 而 
上 语法 分 析 ( 对 输入 符号 串 寻 找 不 同 产生 式 进行 归 约 直至 文法 开始 符号 ) 两 大 类 。 这 里 所 说 的 
输入 符号 指 词法 分 析 所 识别 的 单词 。 本 章 先 介绍 自 上 而 下 语法 分 析 。 


4.1 下 推 自动 机 


下 推 自动 机 的 模型 如 图 4. 1 所 示 。 

PDA 与 FA 的 模型 相 比 较 , 多 了 一 个 下 推 
栈 。PDA 的 动作 由 三 个 因素 决定 :(1) 当前 所 处 
状态 ;(2) 读 头 所 指 符号 ; (3) 下 推 栈 栈 顶 符号 。 


经 过 一 次 动作 , 读 头 可 能 前 进 一 格 ,当前 状态 可 能 下 输出 带 
被 改变 , 栈 顶 的 符号 (或 串 ) 也 由 某 些 审 (可 能 是 空 。 礁 控制 器 L_ 
串 ) 所 替代 。 一 个 输入 串 能 为 PDA 所 接受 , 仅 当 
图 4. 亏 型 

输入 品读 完 ,下 推 栈 变 空 ; 或 者 输入 串 读 完 ,控制 同和 9 下 阁 昌 到 当 术 
器 到 达 某 些 终 态 。( 有 时 ,下 推 自动 机 还 配置 输出 带 ,以 记录 推导 或 归 约 过 程 所 用 的 产生 式 
编号 。) 

定义 :PDA 是 一 个 七 元 组 M,M=(Q,2,H,6,qg,z,F)， 

其 中 :QQ 一 一 控制 器 的 有 限 状 态 集 ; 


一 一 输入 字母 表 ; 
HH 一 一 下 推 栈 内 字母 表 ; 
5 一 一 QX (Ut{s))XxH 到 QXH* 的 有 限 子 集 映射 ; 
qd E Q 一 一 控制 器 的 初始 状态 ; 
z 6E 于 一 一 下 推 栈 的 栈 初 始 符 ; 
FSQ 一 一 控制 器 的 终 态 集 。 
映射 函数 8 是 描述 PDA 动作 与 状态 变化 的 。PDA 的 动作 可 用 映射 函数 8 来 表示 : 
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8(q,ay,z) 一 {(qi, yi), (qz yz) (qay yn))》 
其 中 ,gq,qi(1 二 in) EQ,a€ 3* ,z€E H。 其 意义 是 :控制 器 当前 状态 为 q, 下 推 栈 栈 顶 符号 为 
2z, 输 入 符号 为 a( 可 为 空 ) 情 况 下 ,状态 转换 到 序 偶 集 。 这 个 序 偶 集 由 (qi,yi) 组 成 ,其 中 qi 为 下 
一 状态 ,yi 为 代替 z 的 栈 顶 符号 串 。 
与 FA 相似 ,也 用 “上 ”表示 PDA 作 了 1 步 动 作 . 用 “ 上" ”表示 PDA 作 了 0 步 或 0 步 以 上 
动作 ,用 “上 + ”表示 PDA 作 了 1 步 或 1 步 以 上 动作 。 
按照 上 面 的 定义 ,PDA 肯定 是 不 确定 的 PDA, 因 为 映射 函数 是 序 偶 集 , 不 是 单 值 映射 。 
另外 ,接受 状态 也 有 两 种 : 串 读 完 进 入 终 态 或 串 读 完 栈 空 。 这 给 语法 分 析 带 来 了 不 确定 性 。 下 
面 讨论 一 个 构造 PDA M 的 算法 ,此 算法 对 上 面 定义 的 PDA 作 了 些 限制 ,从 而 向 实用 的 语法 
分 析 法 推进 了 一 大 步 。 
设 CFG G=(VN ,之 ,P,S) ,构造 一 个 不 确定 的 PDA M=(Q, 过 ,H,3,qo,z,F), 其 中 Q= 
F 二 (qo) , 即 控 制 器 只 有 一 个 状态 ;H 二 VwU 站, 栈 内 符号 是 终结 符 和 非 终 结 符 的 并 ;二 S, 栈 初 
始 符号 与 文法 初始 符号 相同 ;8 映射 关系 如 下 设置 :对 于 形 如 A 一 w 的 产生 式 , 有 8(q,s,A) 一 
(Cdq,o) ,这 称 作 推 导 ; 还 有 8(q,a'a) 王 (q,s) 称 作 匹 配 ,其 中 aE 之 。 这 个 PDA 停止 于 栈 空 。 
[ 例 4. 1] 试 给 出 接受 语言 L={arcb"|n 宇 0} 的 下 推 自动 机 。 
解 : 生 成 L 语言 相应 文法 的 产生 式 为 : 
S>aSblc 
所 以 PDA 的 映射 规则 $》 应 该 是 ， 
(1) 6(q,a,a)=(q,e) 
(2) 6(q,b,b)=(q,e) 
(3) 6(q,c,c)=(q,e) 
(4) 6(q,e,S)={(q,aSb),(q,c)} /* 其 中 (q,aSb) 称 a 组 ,(q,c) 称 b 组 */ 
相应 的 PDA M=({q},{a,b,c},{S,a,b,c},8,q,S,{q}))。 
假定 给 定 输入 串 是 aacbb, 其 分 析 的 动作 过 程 为 : 
(q,aacbb,S) |,(q,aacbb,aSb) HCq,acbb,Sb) 
FC(q,acbb,aSbb) F(q,cbb,Sbb) F,(q.cbb,cbb) 
F(q,bb,bb) 上 (gq,b,b) 上 (q,e,e) (接受 ) 
其 中 ,“ 上 ,”, “上,” 表示 选择 映射 规则 (4) 中 a 组 或 b 组 进行 推导 。 
按照 限制 条 件 构造 的 PDA 虽然 是 个 大 进步 ,但 它们 仍然 是 不 确定 的 PDA ,而且 许多 上 下 
文 无 关 文 法 所 对 应 的 下 推 自动 机 都 是 不 确定 的 ,即使 存在 确定 的 PDA, 也 不 存在 不 确定 PDA 
确定 化 的 算法 。 因 此 ,我 们 以 后 讨论 语法 分 析 时 ,除了 采用 这 种 经 限制 的 PDA 之 外 ,对 CFG 
本 身 也 增加 了 限制 ,使 得 语法 分 析 能 确定 进行 。 也 就 是 说 ,要 么 能 识别 出 正确 的 语句 ,要 么 能 
指出 出 错 的 语句 ,不 必 采 用 后 面 将 要 说 到 的 回溯 技术 ,因为 那 种 技术 是 低 效 的 ,不 能 作为 语法 
分 析 的 工具 。 


4.2 自 上 而 下 分 析 法 的 一 般 问题 


自 上 而 下 分 析 的 含义 是 从 文法 的 开始 符号 出 发 ,反复 使 用 不 同 产生 式 进行 推导 ,以 谋求 与 
输入 的 符号 串 相 匹配 。 这 里 说 的 符号 串 是 指 词法 分 析 结 果 的 一 串 二 元 式 。 这 一 节 先 简单 介绍 
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自 上 而 下 分 析 的 一 般 方法 与 一 般 问 题 。 

我 们 对 通过 限制 的 PDA 再 做 一 些 具体 约定 : 设 下 推 栈 的 初始 状态 包含 两 个 符号 “# S”， 
其 中 # ?为 栈 底 符 ，“S ?为 文法 开始 符号 。 有 限 状态 控制 器 中 状态 只 有 一 个 ,可 以 缺 省 。 整 个 
分 析 过 程 是 在 语法 分 析 程 序 ( 又 称 总 控 程序 ) 控 制 下 进行 。 在 语法 分 析 程 序 中 用 到 的 文法 产生 
式 的 表 称 作 语法 表 , 其 框图 如 图 4. 2(a) 所 示 。 


输入 带 


p40 


下 语法 分 析 各 所 一 一 输出 带 
划 江 语法 表 | 
(a) 自 上 而 下 语法 分 析 框图 (b) 语法 树 


图 4.2 语法 分 析 框 图 


语法 分 析 程 序 所 要 执行 的 动作 (又 称 算法 ) 是 : 

(1) 若 栈 顶 符号 XE Vy ,查询 语法 表 , 找 出 一 个 以 X 为 左 部 的 产生 式 , 将 X 弹 出 栈 ,而 把 
产生 式 右 部 的 符号 串 以 自 右 向 左 的 顺序 压 人 栈 内 ,此 过 程 称 作 推导 ,输出 带 上 记 下 产生 式 
编号 ; 

(2) 若 栈 顶 符号 XE Vr , 且 读 头 下 符号 也 是 X, 则 认为 匹配 ,只 要 简单 弹出 X, 读 头 向 前 指 
向 下 一 符号 ; 

(3) 若 栈 顶 符号 XE Vr ,但 与 读 头 下 符号 不 相同 , 则 认为 匹配 失败 ,说 明 前 面 推导 时 选 错 
了 候选 式 ,应 退 至 上 一 次 推导 时 的 现场 (包括 栈 顶 符号 . 读 头 的 指针 和 输出 带 上 的 信息 ), 这 一 
过 程 称 回 淹 ; 

(4) 回溯 后 选择 另 一 候选 式 进 行 推导 , 若 无 候 选 式 可 选 ,应 进一步 回溯 , 若 回溯 到 文法 开 
始 符号 且 又 无 候选 式 可 选 了 , 则 认为 识别 失败 ; 

(5) 若 栈 内 仅 剩 下 栈 底 符 “# ”, 读 头 指向 输入 结束 符 “#”, 则 认为 识别 成 功 。 

[ 例 4. 2] 设 文法 产生 式 是 : 

(1) S>xAy 

(2) A=> 区 

(3) A—* 
试 给 出 分 析 符 号 串 xx* y# 的 过 程 。 
解 : 分 析 过 程 如 下 : 


输入 带 尚未 分 析 串 


Xx y# 


xxy# 


关 y 间 
关 y 间 
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输入 带 尚未 分 析 串 


根据 输出 编号 ,很 容易 构造 出 语法 树 ,语法 树 末 端 符 从 左 到 右 连 接 便 是 被 识别 句子 。 见 图 
4.2(b) 所 示 。 

上 面 的 分 析 算 法 是 试探 性 的 。 对 于 算法 (1) , 若 产生 式 存 在 多 个 候选 式 , 那 么 选择 哪 一 个 
进行 推导 ,完全 是 言 目的 (如 上 例 第 3 步 推导 就 选 错 了 )。 对 于 计算 机 来 说 它 只 能 依照 顺序 选 
择 , 若 要 证 明 某 语句 是 错误 的 ,必须 试探 所 有 途径 ,直至 无 路 可 走 了 才能 断定 它 是 错误 的 。 可 
见 这 种 算法 天 生 比 较 慢 。 此 外 ,从 分 析 过 程 还 发 现下 列 问 题 : 

(1) 文法 左 递归 。 某 文法 若 存 在 左 递归 ,将 使 分 析 过 程 陷 入 无 穷 循环 .例如 P 一 Pa, 当 栈 
顶 为 P 时 则 将 P 进行 推导 ,用 Pa 取代 P, 这 时 栈 顶 又 是 P…… 陷 入 无 穷 推 导 之 中 ,直至 栈 溢出 
了 还 匹配 不 了 一 个 输入 符号 ,可 见 文法 左 递归 必须 消除 。 

(2) 回 湖 。 由 于 回溯 ,就 碰 到 一 大 堆 麻 烦 事情 。 走 了 一 大 段 错 路 ,必须 回头 找 新 的 路 走 ， 
既 麻 烦 又 多 花 时 间 。 为 了 回溯 ,在 每 次 有 多 个 候选 的 推导 处 都 要 记 住 现场 ,此 现场 还 包括 一 大 
堆 语 义工 作 ( 指 中 间 代 码 产 生 工 作 和 各 种 表格 的 簿 记 工 作 ) , 需 大 量 缓冲 区 。 所 以 ,必须 设法 消 
除 回溯 。 

(3) 如 果 被 识别 的 语句 是 错 的 ,无 法 指出 错误 的 确切 位 置 ,因为 在 分 析 过 程 中 存在 虚假 匹 
配 。 因 此 这 种 算法 虽 理 论 上 行 得 通 , 但 没有 实用 价值 。 下 面 讨 论 如 何 解决 这 些 问题 。 


4.2.1 消除 左 递归 


若 文法 存在 P 立 Pa, 则 称 文法 为 左 递归 。 它 包含 了 直接 左 递归 P 一 Pa 和 间接 左 递归 
PAa, A 方 PB 两 种 。 直 接 左 递归 是 比较 容易 消除 的 。 设 文法 G= (Vs,Vr,P,S) 中 ,以 P 为 
左 部 的 产生 式 : 

P—>PalB 《区 
其 中 ,aEV+ ,BEV 但 B 不 以 P 开 头 ,PEVN。 可 以 把 P 的 产生 式 改写 为 如 下 的 非 直接 左 递 
归 的 等 价 式 

P->BP' 

em 
其 中 ,P' 为 新 增加 的 一 个 非 终 结 符 ,e 为 空 串 。 所 谓 等 价 式 ,是 指 推出 的 符号 串 是 相同 的 。 上 
面 的 (1),(2) 两 式 推出 的 符号 串 都 是 Ba* 。 


(2) 
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例如 ,文法 G4.1: 
E>E+TIT 
T—>TxFIF 
F—>(E)|i 
经 消去 直接 左 递归 后 变 成 G4. 2: 
E>TE’ 
E' 一 十 TE'|e 
T>FT’ 
T' 一 *FT'|e 
F>(E)|i 
一 般 而 言 , 若 P 的 全 部 产生 式 是 P>Pai |Pas|…|Pas |Bi|B1…|B, ,其 中 每 个 a; 都 不 等 于 
s 且 每 个 B; 都 不 以 P 打 头 ,那么 消除 P 的 直接 左 递归 就 是 把 它 写成 等 价 变换 式 : 
P—>BiP'|B.P'|*…|B,P’ 
P' 一 aP'|asP'|…anP'|e 
如 文法 P>PaPb|BaP 改写 成 P-~>BaPP' ,P' 一 aPbP'|s。 注 意 , 非 最 左 的 P 不 参加 变换 。 
对 于 文法 的 间接 左 递归 该 如 何 消除 呢 ? 例如 文法 G4. 3: 
S-~Qc|c 
Q->~Rblb 
R 一 Sala 
虽 不 具有 直接 左 递 归 , 但 实际 上 S,Q,R 都 是 左 递归 的 ,因为 有 : 
S-~Qc 一 Rbc 一 Sabc 
Q>Rb—>Sab—>Qcab 
R 一 Sa 一 Qca 一 Rbca 
如 果 一 个 文法 不 含 形 如 P>P 的 产生 式 ,也 不 含 以 s 为 右 部 的 产生 式 , 那 么 执行 下 述 算法 
将 保证 消除 文法 左 递归 (改写 后 的 文法 可 能 含有 s 产生 式 ) : 
(1) 把 文法 G 的 所 有 非 终 结 符 按 任意 顺序 排列 成 pi ,ps ,…, ps, 然后 按 此 顺序 执行 步骤 
(2); 
(2) FOR i:=1 TO n DO 
BEGIN 
FOR k:=1 TO i 一 1 DO 
把 形 如 PPkxy 的 规则 改写 成 PP 一 07|…| 8.7y; 
/* 其 中 Pu 一 6116。1…|6。 是 关于 Pi 的 所 有 规则 x*/ 
消除 P; 规则 的 直接 左 递归 
END; 
(3) 删 去 从 文法 开始 符号 出 发 不 可 达 的 非 终 结 符 产 生 式 。 
算法 中 步 又 (2) 的 含义 是 :(a) 若 产生 式 出 现 直 接 左 递归 , 则 用 上 面 的 变换 消除 之 ;(b) 若 产 
生 式 右 部 最 左 符号 是 非 终结 符 且 其 序号 大 于 左 部 的 非 终结 符 , 则 不 予 处 理 ; (c) 若 序号 小 于 左 
部 的 非 终 结 符 , 则 将 这 序号 小 的 非 终 结 符 用 其 右 部 串 来 取代 ,然后 转 (a) 继 续 , 直 至 消除 文法 所 
有 左 递归 。 例 如 ,将 文法 G4. 3 的 非 终 结 符 重 排 顺 序 : 
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R—>Sala OO 
Q-~Rblb © 
S-~Qclc @ 


@ 式 ,S 的 序号 为 3,R 的 序号 为 1, 所 以 不 予 处 理 。 
@ 式 ,R 的 序号 为 1,Q 的 序号 为 2, 所 以 将 @ 式 右 部 (Sala) 取 代 R, 得 : 
Q-~~Sablab|b © 
这 时 S 序 号 为 3, 大 于 Q 的 序号 2, 不 再 处 理 。 
@ 式 ,Q 的 序号 2 小 于 S 的 序号 3, 所 以 将 @' 式 右 部 (Sablab|b) 取 代 Q, 得 : 
S-~Sabclabclbclc  @' 
这 时 @' 式 出 现 直 接 左 递归 ,可 变换 成 : 
albels @ 
S 一 abcS' |s 
因为 @ 式 R 习 Sala 与 @' 式 Q-~>Sablablb 的 R 和 AQ 都 是 开始 符号 S 不 可 达 非 终结 符 , 因 
此 可 删除 。 最 后 获得 改写 后 的 文法 如 图 式 表 示 。 当 然 ,若非 终结 符 排列 顺序 不 同 ,改写 后 文法 
的 表示 也 不 同 , 但 它们 是 等 价 的 (注意 开始 符号 不 能 改变 ) 。 


4.2.2 消除 回溯 一 一 预测 与 提 左 因子 


产生 回溯 的 原因 是 在 进行 推导 时 , 若 某 非 终结 符 的 产生 式 有 若干 个 候选 式 ,究竟 选 哪 一 个 
候选 式 进行 推导 ,存在 不 确定 性 。 如 果 能 根据 当前 读 头 下 符号 准确 地 选择 一 个 候选 式 进行 推 
导 , 那 么 回溯 便 不 存在 。 也 就 是 说 , 若 此 候选 式 推导 出 的 第 一 个 终结 符 与 输入 符号 相 匹 配 , 那 
么 这 种 匹配 绝 不 是 虚假 的 ; 若 此 候选 式 无 法 完成 匹配 , 则 任何 其 他 候选 式 也 肯定 无 法 完成 匹 
配 , 也 即 该 输入 串 肯定 是 错 的 。 

1) 预测 

根据 读 头 下 符号 选择 这 样 的 候选 式 : 其 第 一 个 符号 与 读 头 下 符号 相同 ,或 该 候选 式 可 推导 
出 的 第 一 个 符号 与 读 头 下 符号 相同 。 这 相当 于 向 前 看 了 一 个 符号 ,所 以 称 预测 。 这 时 选择 候 
选 式 不 再 是 盲目 的 了 ,而 是 有 意识 地 选择 ,所 以 也 无 需 回 漳 。 

令 G 是 一 个 不 含 左 递归 的 文法 ,对 G 的 所 有 非 终结 符 的 每 个 候选 式 a 定义 它 的 终结 首 符 
集 First(a) 为 : 

First(a)={ala aaEVr) 

对 于 First(a) 一 {e)} 的 情况 ,问题 稍 复杂 一 些 , 留 待 后 面 进 一 步 讨 论 。 

设 AEVy, 且 A>alB, 当 A 出 现在 下 推 栈 的 栈 顶 ,输入 符号 为 a 时 ,应 如 何 选择 A 的 候选 
式 进 行 推导 呢 ? 这 里 分 四 种 情况 

(1) 若 aEFirst(a) 而 a 氏 First(B) , 选 A>a; 

(2) 若 aE@First(a) 而 aEFirst(B) , 选 A 一 B; 

(3) 若 aFFirst(a) 且 aK First(B) ,表示 输入 有 错 ; 

(4) 若 aEFirst(a) 且 aE First(B) ,终结 首 符 集 两 两 相交 。 

前 三 种 答案 都 是 明确 的 .而 对 于 第 (4) 种 ,由 于 首 符 集 两 两 相交 ,仍然 无 法 选择 用 哪 一 个 候 
选 式 进行 推导 。 解 决 的 办 法 仍然 是 改写 文法 .提取 公共 左 因子 。 
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2) 提取 公共 左 因子 
假定 关于 非 终结 符 A 的 产生 式 是 : 
A—>8B | 3B | …|3B。 
那么 可 以 改写 成 : 
A>6A' 
A'—Bi 1B |…|B。 
一 般 情况 , 若 有 关 A 的 产生 式 是 : 
A—>Ya|Yas |Bas |Bas |B 
可 以 写成 : 
A—>yA'|BA’” 
A' 一 aa |as 
A’—>as |ale 
经 过 反复 提 左 因子 ,就 能 把 每 个 非 终 结 符 ( 包 括 新 引进 非 终 结 符 ) 的 所 有 候选 式 首 符 集 变 
成 两 两 不 相交 ,从 而 消除 了 回溯 。 然 而 为 此 付出 的 代价 是 大 量 引进 非 终结 符 A',A”,… 和 8 产 
生 式 ,从 而 也 增添 了 语法 分 析 的 复杂 性 。 
例如 ,程序 设计 语言 的 IF 语句 如 有 下 产生 式 : 
《IF 语句 )>if E then Si else S; 
《IF 语句 )>if E then Si 
提取 左 因子 后 ,IF 所 
《IF 语句 ?一 LE then SB 
B'—>else S, js 


通过 上 述 两 步 工 作 , 可 以 构造 一 个 不 带 回溯 的 自 上 而 下 的 分 析 程 序 了 。 


4.3 预测 分 析 程 序 与 LL(1) 文 法 


前 面 讲 过 , 自 上 而 下 分 析出 现 回溯 可 以 通过 
向 前 看 一 个 符号 加 以 解决 。 为 此 ,我 们 将 图 4. 2 
(a) 的 下 推 自动 机 进一步 改造 成 图 4. 3。 整 个 分 
析 过 程 是 在 预测 分 析 程 序 控 制 下 工作 的 。 预 测 下 
分 析 程 序 用 了 一 个 矩阵 MLA,a], 称 作 预 测 分 析 烛 
表 , 其 中 ,A 是 非 终结 符 ,a 是 终结 符 或 者 串 结束 
符 。 分 析 表 和 矩阵 元 素 MLA,a] 中 或 是 存放 A 的 
一 个 候选 式 ,指出 当前 栈 顶 符 为 A, 且 面临 读 入 符号 a 时 应 选 的 候选 式 ;或 是 存放 出 错 标志 , 指 
出 A 根本 不 该 面临 读 入 符号 a。 
预测 分 析 程 序 任 何 时 候 都 是 按 下 推 栈 栈 顶 符号 X 和 当前 读 入 符号 a 行事 的 , 它 只 可 能 有 
如 下 三 种 动作 之 一 。 下 面 给 出 非 形式 的 算法 描述 : 设 栈 顶 符号 为 X, 读 入 符号 为 a, 则 
(1) i Bh 表示 识别 成 功 ,退出 分 析 程 序 ; 
(2) 若 X=a 关 “#”, 表 示 匹 配 , 弹 出 栈 顶 符号 X, 读 头 前 进 一 格 (表示 读 入 下 一 个 符号 ) ,让 
ore XE Vr 但 Xa, 则 调 ERROR 处 理 ; 
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4.3 预测 分 析 框 图 


输出 带 


(3) 若 XE Vn, 查 预测 分 析 表 M。 若 MLX,a] 中 存放 着 关于 X 的 产生 式 , 则 弹出 X, 而 将 
此 产生 式 右 部 以 自 右 向 左 的 顺序 压 人 栈 内 ,在 输出 带 上 记 下 产生 式 编号 ; 若 MLX,a] 中 存放 着 
出 错 标志 , 则 调 相 应 出 错 程序 ERROR 去 处 理 。 

[ 例 4. 3] 对 已 消除 了 左 递归 的 文法 G4.2, 加 编号 重 写 如 下 : 


Ll BT 5 区 
2 已 一 十 TE- G; TE 

3. Be 7. Fi 

4. T>FT!’ 8. F—>(E) 


其 对 应 的 预测 分 析 表 见 表 4. 1, 其 中 空白 格 为 出 错 标志 。 
表 4.1 LL(1) 分 析 表 


T' 一 *FT' 


(1) 试 给 出 语句 i 十 ix i# 的 分 析 过 程 ( 见 表 4.2) 。 
表 4.2 语句 i 二 ix i# 的 分 析 过 程 
输出 编号 
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输出 编号 


LAT G525d175557 
1,4,7,6,2,4,7,5,7,6 
1,4,7,6,2,4,7,5,7,6,3 
识别 成 功 
由 输出 带 上 的 编号 顺序 可 以 画 出 语法 树 如 图 4. 4 所 示 。 E 
(2) 试 给 出 语句 ix 十 i# 的 分 析 过 程 (如 表 4. 3 所 示 )。 Tp 
由 步骤 6 看 到 : 当 栈 顶 符 为 F, 读 头 下 符号 为 十 , 查 表 41 FT @ ~ 
为 出 错 项 , 调 ERROR 处 理 。 上 | Eo 
8 
从 上 面 的 分 析 过 程 可 见 , 这 个 PDA 是 确定 下 推 自动 机 ,其 | 个 
分 析 过 程 的 关键 是 构造 预测 分 析 表 M。 为 了 构造 预测 分 析 表 oo%ij 
M, 需 要 预先 定义 和 构造 与 文法 G 有 关 的 两 个 集合 :终结 首 符 Os: 
集 First 和 随 符 集 Follow。 4.4 语法 树 


表 4.3 语句 ix 十 i# 的 分 析 过 程 
栈 内 符号 
#E 


#E'T 


#E'T'F 


#E'T'i 


#E'T’ 


#E'T'F* 


#E'T'F 


出 错 


4.3.1 求 串 w 的 终结 首 符 集 和 非 终结 符 A 的 随 符 集 


首先 ,定义 这 两 个 集合 : 
(1) 假定 a 是 文法 G 的 一 个 符号 串 ,aEV” ,定义 
First(a)= {ala >a,a€E Vir} 
车 a 下 e, 则 eEFirst(a)。First(a) 读 作 串 a 的 终结 首 符 集 ,简称 首 符 集 , 它 是 a 的 所 有 可 能 推 
导出 的 开头 的 终结 符 或 所 组 成 的 符号 集合 。 
(2) 假定 S 是 文法 G 的 开始 符号 ,对 于 G 的 任何 非 终结 符 A ,定义 
Follow(A)={alS Aa .aE Vt} 
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若 S 方 …A, 则 规定 # EFollow(A), 这 说 明 Follow(A) 是 指 在 所 有 句 型 中 紧 跟 在 A 之 后 的 终 
结 符 或 “# ”的 集合 。 
下 面 给 出 求 First(a) 与 Follow(A) 的 算法 。 
(1) 求 First(a) 的 算法 。 
设 a 一 Xi1Xs…X,, 其 中 Xi:E (VrUVy) ,1 过 in, 为 了 求 a 的 首 符 集 ,分 两 步 :首先 求 Xi 的 
首 符 集 , 然 后 求 a 的 首 符 集 。 
(i) 求 每 个 文法 符号 X 的 首 符 集 First(X) 的 算法 。 
a. 若 XEVr, 则 First(X) 王 {X); 
b. 若 XEVN, 且 有 产生 式 X 一 a…,a€ Vt;, 则 把 a 加 到 First(X) 中 , 若 X 一 e 是 一 条 产生 
式 , 则 s 也 加 入 到 First(X) 中 ; 
c. 若 X-YiY YYiEV,1 委 j 乏 k, 按 如 下 算法 求 First(X) ， 
BEGIN 
j: 一 0; 
First(X):={ } 
REPEAT 
j:=j 二 1; 
First(X) :=First(X)U (First(Y;)—{e}) 
UNTIL sE First(Y;) 或 j=k; 
IFG=k BH e€ First(Y)) 
THEN First(X):=First(X)U {e} 
END 
(ii) 求 First(a) 的 算法 。 
设 a 二 XiXs…X,, 求 First(a) 的 算法 与 上 面 的 算法 相同 , 重 写 如 下 : 
BEGIN 
First(a):={ } 
i:=0; 
REPEAT 
i: 一 i 十 1; 
First(a) :一 First(a) U (First(X;)—{e}) 
UNTIL e¥ First(Xi;) 或 i=n 
IF(i=n BH e€First(X,))THEN First(a) :=First(a) U {e} 
END 
(2) 构造 Follow(A) 的 算法 。 
(i) 对 文法 开始 符号 S, 置 “#” 于 Follow(S) 中 ; 
(ii) 车 B>aAB 是 文法 的 一 个 产生 式 , 则 把 First(B) 一 {s} 加 至 Follow(A) 中 ; 
(iii) 车 B>aA 是 文法 的 一 个 产生 式 ,或 B>aAB 是 文法 的 一 个 产生 式 而 B 广 e, 则 把 Fol- 
low(B) 加 入 到 Follow(A) 中 。 
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下 面 给 出 求 文法 G4. 2 的 First 集合 和 Follow 集合 的 具体 过 程 。 
(1) 求 First 的 集合 。 
利用 上 文 算法 中 b 情况 ,有 : 
First(E)=First(T)=First(F)={(,i} 
再 利用 算法 中 c 情况, 有 : 
First(E')={ 十 } 十 {e} 
First(T')={*}++{e}={* ,e} 
(2) 求 Follow 的 集合 。 
@ 由 上 文 算法 (i) 有 # EFollow(E), 再 由 产生 式 F-~(E) 及 算法 (il ,又 有 )E Follow(E)， 
从 而 有 : 
Follow(E)={),#} 
@ 由 上 文 算法 (让 及 产生 式 E' 一 十 TE' 可 知 First(E') 一 {e}CFollow(T), 即 有 : 
Follow(T) 王 (十 } 
再 由 上 文 算 法 (ii) 知 ,由 下 一 es 及 产生 式 E' 一 十 TE' ,有 Follow(E)EFollow(T) ,从 
而 有 : 


Follow(T)=={ 十 } 十 {), 提 }= 二 {十 ,), 间 } 
@ 由 上 文 算法 Gi) 及 产生 式 E>TE',E' 一 十 TE' 知 Follow(E)SSFollow(E'), 即 : 
Follow(E')=1{),#)} 
@ 由 上 文 算法 Gi 让) 及 产生 式 T' 一 *FT',T->FT' 知 Follow(T) 己 Follow(T'), 即 : 
Follow(T') 王 (十 ,),#》 
@@ 由 上 文 算法 (让 及 产生 式 T>FT',T' 一 *FT' 可 知 First(T') 一 {e}CSFollow(F)。 当 人 T' 
为 时 ,由 算法 (ii) 知 Follow(T) 己 Follow(F), 即 : 
Follow(CF) 王 {(* ,十 ,), 井 } 
故 最 终结 果 如 下 : 
First(E)=First(T)=First(F)={(,1} 
First(E') 一 (十 ,e) 
First(T')={ x ,e} 
Follow(E)=Follow(E')={),#)} 
Follow(T)=Follow(T')={ 二 ,),#} 
Follow(F)={x* ,十 ,),#} 
请 注意 :我 们 这 里 是 采用 消除 左 递归 后 的 文法 来 求 这 两 个 集合 的 ,因为 只 有 用 消除 了 左 递 
归 及 提取 了 左 因子 后 的 文法 ,才能 进行 预测 分 析 ,否则 求 这 两 个 集合 是 毫 无 意义 的 。 


4.3.2 构造 预测 分 析 表 


构造 预测 分 析 表 的 基本 思想 是 很 简单 的 。 假 如 A 一 a 是 一 个 产生 式 ,aE First(a) ,那么 当 

人 A 呈现 于 栈 顶 且 读 头 下 面临 的 正 是 a 时 ,选择 a 来 取代 A, 这样 匹配 成 功 的 希望 最 大 。 因 此 

M[A,a] 中 应 填 和 人 A>a。 前 面 提 到 , 当 A>a, 其 中 a= 或 a 方 e 时 应 怎么 办 ? 在 这 种 情况 

下 ,如 果 读 头 下 面临 的 符号 a( 某 终结 符 或 # ) 属 于 Follow(A), 那 么 认为 栈 顶 的 A 应 被 e 匹 
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配 。 读 头 不 前 进 , 而 让 A 的 随 符 与 读 头 下 符号 进行 匹配 ,这 样 输入 串 匹 配 成 功 的 可 能 性 也 最 
大 。 为 了 实现 这 种 匹配 ,在 MLA, 本 处 应 填 人 A>a( 这 里 一 s 或 二 se) 这 条 产生 式 。 
按照 这 个 基本 思想 构造 预测 分 析 表 的 算法 是 : 
(1) 假定 A 一 a 是 一 个 产生 式 ,aE First(a) ,那么 当 A 是 栈 顶 符 , 而 读 头 面临 的 是 a 时 ， 
A 一 x 就 应 当 作为 选用 的 候选 式 填 人 MLA,a] 中 ， 
(2) 若 A>a 且 e€First(a), 则 对 Follow(A) 中 每 个 b, 在 MLA,b] 中 应 填 A 一 a( 一 般 填 
A 一 e); 
(3) 把 所 有 无 定义 的 ML[A ,a] 皆 填 上 error 标志 。 
例如 ,把 这 个 算法 应 用 于 G4. 2 文法 ,就 得 到 表 4. 1 的 预测 分 析 表 。 因 为 First(E)= 
First(T) 王 First(F) 一 {i,() ,所 以 在 MLE, 让 和 MLE,O] 处 应 填 上 E>TE 产生 式 。 对 于 E' 一 十 
TE' 产 生 式 有 First( 十 TE') 王 (十 } ,所 以 MLE' ,十 ] 处 应 填 E' 一 十 TE' ;由 于 Follow(E')={)， 
#} ,同时 E' 一 se, 所 以 MLE' ,)] 与 MLE' ,#] 处 应 填 上 E' 一 产生 式 …… 
上 述 算法 对 于 任意 文法 G 都 能 构造 它 的 分 析 表 M。 问 题 是 对 于 有 些 文法 , 若 它 是 二 义 的 
且 未 消除 左 递归 和 提取 左 因子 的 ,那么 构造 出 的 M 包含 有 重 定义 项 ( 即 在 MLA,a] 中 填 有 一 
个 以 上 的 产生 式 )。 
定义 :文法 G, 若 它 的 分 析 表 M 不 含有 和 多重 定义 项 , 则 称 G 为 LL(1) 文 法 。 
LL(1) 文 法 是 无 二 义 性 的 ,二 义 文法 决 不 是 LL(1) 文 法 。 
LL(1) 这 个 词 的 含义 是 :两 个 是 指 从 左 到 右 扫 描 输入 串 , 采 用 最 左 推导 分 析 句 子 ; 数 字 
1 表示 分 析 句 子 时 需 向 前 查看 一 个 输入 符号 。 有 LL(1) 就 有 LL(k), 即 向 前 查看 k 个 输入 符 
号 ,看 得 越 远 ,选择 推导 的 候选 式 当 然 越 准确 。 遗 憾 的 是 随 着 kk 的 加 大 ,分 析 表 M 的 尺寸 以 me 
增长 ,其 中 n=|>| 十 1, 而 对 于 程序 设计 语言 , 取 ==1 就 够 了 。 
定理 4.1: 文 法 G 是 LL(1) 当 且 仅 当 对 于 G 的 每 一 个 非 终 结 符 A 的 任何 两 个 不 同 产生 式 
AalB 有 : 
(1) First(a) NFirst(B)= 8 ; 
(2) 若 sE First(B) , 则 First(a) 门 Follow(A)=。 
实际 上 ,这 个 定理 与 MLA,a] 中 无 重 定 义 项 是 一 回 事 ,仅仅 是 它 不 必 构造 分 析 表 ,而 直接 
由 首 符 集 、 随 符 集 来 判定 文法 是 否 为 LL(1)。 当 然 ,在 判定 文法 是 否 是 LL(1) 前 ,必须 先 消除 文 
法 的 左 递归 和 提取 公共 左 因子 。 因 为 包含 有 左 递归 和 有 公共 左 因 子 的 文法 肯定 不 是 LL(1) 
文法 。 
由 上 面 的 讨论 知道 LL(1) 文 法 的 局 限 性 很 大 , 它 只 是 上 下 文 无 关 文 法 的 一 个 子 集 。 下 面 
举 一 个 程序 设计 语言 中 IF 语句 的 文法 定义 的 例子 , 它 就 不 是 LL(1) 文 法 。 
[ 例 4. 4] 设 语句 文法 是 : 
Sif E then S else S 
| if EthenS 
| other 
E>b 
提 左 因子 ,文法 改写 成 : 
S->if E then S S'|other 


S'—>else Sle 
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E>b 
求 首 符 集 和 随 符 集 : 
First(S)= {if,other} ,First(S')= {else,e}, 
First(E)={b} 
Follow(S)=Follow(S')=First(S')—{e}U{#)= {else,#)} 
Follow(E)= {then} 
按照 算法 构造 预测 分 析 表 如 表 4.4 所 示 。 由 表 可 见 MLS' ,else] 填 了 S 一 elseS 和 S 一 s 
两 个 产生 式 。 
表 4.4 让 语句 预测 分 析 表 
让 


Si EtSS' 


注 :SiEtSS' 为 Svif E then S S' 的 缩写 ,S' 一 eS 为 Selse S 的 缩写 。 


也 就 是 说 此 文法 不 是 LL(1) 文 法 。 实 际 上 此 文法 是 二 义 文法 ,当然 不 是 LL(1) 的 。 许 多 
程序 设计 语言 遇 到 这 种 情况 时 ,都 人 为 地 作 了 约定 ,让 它 仅 保留 S -else S 这 一 产生 式 , 而 删 
去 产生 式 S'>e。 这 相当 于 读 头 下 的 else 总 是 要 与 前 面 没有 被 匹配 的 then 相配 对 。 这 种 约定 
已 为 许多 程序 设计 语言 所 接受 。 通 过 这 样 约定 ,此 文法 便 可 用 LL(1) 分 析 。 

按照 定理 4.1 也 可 简便 地 判定 此 文法 不 是 LL(1) 的 ,因为 : 

First (if E then S S) First (other)=8 
First (else S) MNFirst(e)=@ 
但 First (else S) NFollow(S')={else}NN {else,#})={else} 关 G。 


4. 3.3 状态 表 


对 上 面 所 说 的 预测 分 析 程 序 和 分 析 表 M, 从 程序 设计 的 角度 看 ,都 可 以 进一步 化 简 , 以 提 
高 算法 的 效率 。 

对 分 析 表 的 每 一 项 MLX,aj] ,为 节省 存储 空间 和 提高 效率 ,实际 上 无 需 把 整个 产生 式 X 一 
Xi1X,…X。 存 于 其 中 ,只 需 保 存 右 部 符号 串 。 并 且 为 了 程序 控制 方便 ,可 按 倒序 存放 这 个 右 部 
符号 串 ( 这 样 可 以 边 读 边 压 进 下 推 栈 ) 。 最 节省 的 办 法 是 MLA,aj 中 只 保存 产生 式 编 号 ,而 将 
产生 式 另 存 于 一 个 语法 表 中 。 

[ 例 4. 5] 构造 EL 语言 部 分 文法 的 预测 分 析 表 。 假 定 把 (语句 ? 当 作 终结 符号 并 写作 s, 标 
识 符 写 作 id。 

解 :消除 左 递归 并 加 了 编号 后 的 部 分 EL 文法 写作 G4. 3: 

(1)〈 程 序 ) 习 program id( 变 量 说 明 )( 复 合 语句 》 

(2) (变量 说 明 ) 习 var( 标 识 符 表 ) :integer 

(3) (标识 符 表 ) 一 id( 标 识 符 表 1》 
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(4)《〈 标 识 符 表 1 一 ,id( 标 识 符 表 1) |e 

(5) (复合 语句 ) 习 begin( 语 句 表 )end 

(6)《〈 语 句 表 一 s( 语 句 表 1) 

(7)《〈 语 句 表 1 一 ;s( 语 句 表 1)|e 

这 个 文法 的 非 终结 符 首 符 集 很 容易 求 得 ,因为 产生 式 右 部 的 最 左 符号 不 是 终结 符 就 是 s。 
此 外 ,根据 构造 分 析 表 算法 ,只 要 再 找 出 (标识 符 表 1 与 (语句 表 1 的 随 符 集 即 可 ,前 者 是 { :}， 
后 者 是 {end} 。 根 据 算法 构造 分 析 表 如 下 : 


program 


《程序 》 (1) 
《变量 说 明 》 
《标识 符 表 》 
(标识 符 表 1) 


《复合 语句 》 


《语句 表 》 


《语句 表 1) 


注 :其 中 带 撤 编号 指 空 串 产生 式 。 


由 上 述 例子 可 知 , 分 析 表 是 稀 朴 矩阵 ,即使 改 为 仅 填写 编号 ,浪费 也 是 非常 大 的 。 
下 面 结合 预测 分 析 程 序 ,将 预测 分 析 表 改造 成 状态 矩阵 表 。 已 经 知道 预测 分 析 程 序 只 做 
三 件 事 : 
BEGIN 
INITIAL :将 “#S” 推 进 栈 ; 
NEXT: 读 人 下 一 符号 至 a; 
PROCESS: 按 MLX,a] 所 规定 的 动作 行事 
END 
前 两 件 事 很 简单 ,第 三 件 事 是 按 M[X,a] 所 规定 动作 行事 ,这 些 “ 规 定 动作 ”是 登记 在 表 
中 ,只 要 依次 从 表 中 取出 执行 即 可 。 为 此 ,将 分 析 表 改 为 状态 表 , 状 态 表 由 五 栏 组 成 
(1) 下 推 栈 栈 顶 符 X, 称 作 状 态 ,XE (Vr UVy); 
(2) 输入 符号 a; 
(3) 语义 子 程序 ,用 以 实现 语言 翻译 , 暂 不 讨论 ; 
(4) 状态 变迁 , 即 指 栈 顶 符号 怎么 变 ; 
(5) 下 一 步 动作 。 
“状态 变迁 ”是 指 栈 顶 符号 怎么 变 , 设 栈 顶 符号 为 X, 输 入 符号 为 a, 若 在 原 分 析 表 中 M[X， 
a] 有 “XY1Ys…Y。” 项 ,而 且 Yi 是 终结 符 并 与 输入 符 a 相 匹配 ,所 以 这 时 Yi 可 以 不 必 进 栈 。 
这 时 的 动作 是 将 X 弹出 ,而 把 Y…Y。 以 自 右 向 左 的 顺序 入 栈 , 栈 顶 变 为 Y,。 这 个 过 程 可 写 
作 二 Y。…YY;( 串 为 倒序 排列 ,便于 压 进 栈 )。 下 一 步 动 作 应 是 再 读 一 个 符号 , 即 转 至 分 析 程 序 
的 NEXT。 若 Y; 不 是 终结 符 , 那 么 将 产生 式 右 部 整个 串 取代 X, 写 作 二 Y。… Yi, 栈 顶 变 成 
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Yi ,下 一 步 动作 应 转 至 分 析 程 序 的 PROCESS ,重复 上 述 过程 。 若 产生 式 右 部 是 空 串 s, 则 仅 简 
单 地 弹出 X, 写 作 汪 ,次 栈 顶 符号 变 为 栈 顶 符号 ,下 一 步 动作 也 是 转 至 PROCESS 处 理 。 若 原 
M[X,a] 中 为 空白 项 , 则 认为 出 错 , 所 以 下 一 步 动作 调 ERROR 处 理 。 若 遇 上 MT[# ,#], 表 示 
识别 成 功 ,退出 分 析 过 程 , 即 执行 RETURN 动作 。 

显然 下 一 步 动作 ”只 有 四 种 可 能 动作 : 转 至 分 析 程 序 的 NEXT 或 PROCESS 处 理 、 调 
ERROR 处 理 或 分 析 成 功 而 执行 RETURN 返回 。 

[ 例 4. 6] 根据 G4. 2 文法 与 表 4. 1 分 析 表 ,能 构造 自 上 而 下 分 析 状 态 表 4.5。 在 表 中 状 
态 栏 除了 非 终 结 符 外 还 需 加 上 可 能 出 现 的 终结 符 “)” 和 “#”, 因 为 这 些 符号 可 能 出 现在 
栈 顶 。 


表 4.5 自 上 而 下 分 析 状态 表 


状态 ( 栈 顶 符 X) 下 一 步 动 作 
PROCESS 


E 


ERROR 


NEXT 


PROCESS 


ERROR 


PROCESS 


ERROR 


NEXT 


PROCESS 


ERROR 


NEXT 


NEXT 


ERROR 


NEXT 


ERROR 


RETURN 


ERROR 


状态 表 的 使 用 仅仅 是 数据 结构 上 的 改变 ,并 未 改变 LL(1) 分 析 方 法 。 状 态 表 的 使 用 使 得 
分 析 表 紧凑 ,而 总 控 程 序 也 不 复杂 。 


4.4 递归 下 降 分 析 法 


所 谓 递归 子 程序 ,是 指 进入 子 程序 之 后 返回 调用 程序 之 前 又 能 以 直接 或 间接 方式 调用 子 
程序 本 身 ,递归 子 程序 也 可 称 为 递归 过 程 。 若 一 文法 G 不 含有 左 递归 ,而 且 每 个 非 终结 符 的 
74 


所 有 候选 式 的 首 符 集 都 是 两 两 不 相交 的 ,那么 就 能 为 G 中 每 个 非 终结 符 编 写 一 个 相应 的 递归 
过 程 ,把 该 文法 中 的 所 有 这 样 一些 递 归 过 程 组 合 起 来 就 有 可 能 构成 一 个 不 带 回溯 的 自 上 而 下 
分 析 程 序 , 这 种 分 析 程 序 称 为 递归 下 降 分 析 程 序 。 每 个 过 程 对 应 于 文法 的 一 个 非 终结 符 ,每 个 
过 程 分 析 相 应 的 非 终结 符 的 短语 。 更 确切 地 说 ,每 个 过 程 由 产生 式 左 部 的 非 终结 符 命名 ,过 程 
体 则 是 按 该 产生 式 右 部 符号 串 顺序 编写 。 每 匹配 一 个 终结 符 , 则 再 读 和 下 一 个 符号 ,对 于 产生 
式 右 部 的 每 个 非 终结 符 , 则 调用 相应 的 过 程 。 当 一 个 非 终结 符 对 应 于 多 个 候选 式 时 ,过 程 体 将 
根据 各 候选 式 首 符 集 的 不 同 编写 对 相应 候选 式 的 分 析 。 若 某 候选 式 是 产生 式 , 则 不 需 对 它 
分 析 , 认 为 自动 匹配 ,如 输入 源 程序 有 错误 则 由 后 继 过 程 指出 。 

我 们 曾 说 过 , 绝 大 多 数 程序 设计 语言 可 用 上 下 文 无 关 文 法 来 描述 ,而 上 下 文 无 关 文 法 的 特 
点 是 在 于 它 的 递归 性 ,因此 用 递归 下 降 程序 来 分 析 是 合适 的 。 


例如 ,对 于 G4. 2 文法 ,可 重 写成 ， 
E>TE’ E'=>+TE’|e 
T>FT' T'—*FT'|e 
F>(E)|i 
编制 的 递归 子 程序 形式 如 下 : 

PROCEDURE E; 

BEGIN 

T;E’ 
END， 


PROCEDURE T:; 
BEGIN 
FiT' 
END; 


PROCEDURE F; 


ADVANCE; 


PROCEDURE E'; 
BEGIN 
IF SYM=' 十 'THEN 
BEGIN 
ADVANCE; 
TE 
END 
END， 
PROCEDURE T'; 
BEGIN 
IF SYM='* 'THEN 
BEGIN 
ADVANCE; 
FT 
END 
END:; 


BEGIN 
IF SYM='1THEN ADVANCE 
ELSE 
IF SYM='(THEN 
BEGIN 
E; 
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IF SYM=')'THEN ADVANCE 
ELSE ERROR 
END 
ELSE ERROR 
END; 
注意 ,其 中 ADVANCE 是 一 过 程 , 表 示 读 一 单词 到 SYM。 实 际 上 它 就 是 调用 词法 分 析 程 
序 , 将 返回 二 元 式 的 类 号 至 SYM。 
可 以 把 上 述 产生 式 的 右 部 当 作 一 个 正规 式 来 看 待 ,只 不 过 这 时 符号 被 扩充 到 (Vr UVN) 
上 ,因此 可 画 出 其 相应 的 转换 图 ,此 图 与 有 限 自动 机 的 转换 图 区 别 在 于 : 
(1) 弧 上 标志 属于 (Vr UVN) ,而 不 仅 属于 Vr; 
(2) 对 于 每 一 个 XE Vy 都 有 一 个 转换 图 ,所 以 文法 有 若干 个 转换 图 。 
比如 文法 G4. 2 对 应 于 五 个 转换 图 ,如 图 4.5 所 示 。 


= “OF 0 I 


E' 图 


oO -G50 


T' 图 
4.5 G4.2 文 法 非 终 结 符 对 应 的 转换 图 


在 第 2 章 讲 过 ,文法 还 可 以 表示 成 扩充 的 Backus 表示 法 。 对 于 G4. 1 文法 可 以 改写 成 如 


下 G'4.2 形式 : 
G'4.2: E>T{ 十 人 T} 
T—F{ x*F} 
Fi| (E) 


对 应 的 三 个 非 终 结 符 的 转换 图 如 图 4.6 所 示 。 


SO*O OO © OOO 


E 图 


四 4.6 G'4.2 人 


这 一 组 转换 图 如 何 用 来 识别 CFG 文法 的 句子 呢 ? 它 的 动作 过 程 是 这 样 的 : 

(1) 从 文法 开始 符号 的 转换 图 初 态 开始 进行 分 析 ; 

(2) 若 当 前 所 处 结 点 有 若干 条 以 终结 符 为 标记 的 射出 弧 , 则 选择 一 个 标记 与 读 入 符 相 同 
的 弧 线 推进 到 下 一 个 结 点 , 读 头 向 前 ,指向 下 一 符号 (表示 已 识别 一 个 符号 ) , 若 找 不 到 此 标记 ， 
则 认为 输入 串 有 错 , 调 相 应 出 错 程序 去 处 理 ; 

(3) 若 A 图 上 当前 所 处 结 点 有 非 终结 符 为 标记 的 射出 弧 B, 则 转 B 图 的 初 态 作 进一步 动 
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作 , 当 遇 到 也 图 终 态 时 返回 到 A 图 上 B 弧 所 指 的 结 点 继续 工作 ; 
(4) 此 过 程 一 直 进 行 到 进入 开始 符号 转换 图 的 终 态 结 点 (表示 识别 成 功 ) 或 无 法 继续 动作 
(输入 串 有 错 ) 为 止 。 
例如 ,语句 i 十 ixi 使 用 图 4.6 所 示 转 换 图 的 动作 情况 如 下 : 
Eu 一 To 一 Fu 一 F; 一 Ti 一 Ti 一 El SET >F 一 F: 一 Ti 全 To 一 Fu 一 Fi 一 Ti 一 T 一 E 
一 下 ， 
由 图 4.6 的 转换 图 编写 的 递归 下 降 子 程序 如 图 4.7 所 示 。 
PROCEDURE E; 
BEGIN 
T; 
WHILE SYM='+'DO 
BEGIN ADVANCE;T END 
END; 
PROCEDURE T; 
BEGIN 
F; 
WHILE SYM="' * 'DO 
BEGIN ADVANCE; F END 
END; 
PROCEDURE F; 
BEGIN 
IF SYM='iTHEN ADVANCE 
ELSE IF SYM='(CTHEN 
BEGIN ADVANCE; 
E; 
IF SYM=')'THEN ADVANCE 
ELSE ERROR 
END; 
ELSE ERROR 
END; 
图 4.7 递归 下 降 分 析 程序 


其 中 ,SYM 为 全 局 变量 , 它 总 是 存放 待 加 工 的 下 一 符号 。 在 开始 分 析 时 , 主 程序 应 先 调 
ADVANCE, 它 把 输入 串 的 一 个 符号 读 人 SYM ,然后 才 调 用 下 。 当 发 现 错误 时 调 ERROR 程 
序 进行 出 错 处 理 。 

用 递归 下 降 分 析 法 进行 语法 分 析 , 从 表面 上 看 它 没 有 用 下 推 栈 。 实 际 上 ,能 实现 递归 算法 
的 语言 (如 Pascal 等 ) , 它 的 数据 区 就 是 按 栈 结构 组 成 的 ,每 调用 一 个 过 程 便 建立 该 过 程 的 栈 
数据 区 ,而 施 调 过 程 的 数据 仍 保留 在 栈 内 , 当 过 程 返回 ,恢复 施 调 过 程 数据 区 ,将 栈 内 保留 的 内 
容 拿 出 来 用 。 这 跟 下 推 栈 原 理 完全 相同 。 

虽然 高 深度 的 递归 调用 会 影响 语法 分 析 的 效率 ,但 由 于 递归 下 降 法 容易 编写 语法 分 析 程 
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序 , 所 以 EL 语言 的 语法 分 析 程序 就 选用 递归 下 降 法 编制 。 对 于 EL 语言 的 文法 ,我们 改写 成 
符合 这 种 语法 分 析 的 形式 ( 即 消除 左 递归 ,提取 公共 左 因子 ) 并 写成 扩充 的 Backus 范式 : 
(程序 ) 一 program( 标 识 符 ) ; (说明 部 分 ) (复合 语 句 》 
《说 明 部 分 ;一 [ (常量 定义 );][( 变 量 说 明 ) ;]{ (过 程 或 函数 说 明 );} 
(变量 说 明 ) 一 var( 标 识 符 表 ) :integer; 
(标识 符 表 ) 一 (标识 符 ){,( 标 识 符 〉} 
《复合 语句 ) 一 begin( 语 句 表 end 
(语句 表 ) 一 (语句 ){;( 语 句 )} 
(语句) 一 (标识 符 ) := (表达 表 》 
| (复合 语句 》 
| 让 (条 件 表达 式 )then( 语 句 ) (条 件 语句 1》 
| while( 条 件 表达 式 )do( 语 句 》 
| read( (标识 符 表 )) 
| write(( 表 达 式 表 )) 
le 
(条 件 语句 1) 一 else( 语 句 ) |e 
(表达 式 ) 一 (十 TI 一 TI|T){( 十 | 一 )T} 
T—>F{(* |/)F} 
F 一 (( 表 达 式 ))| (标识 符 )|( 无 符号 数 )| (标识 符 )[(( 表 达 
式 表 ))] 
《条件 表 达 式 ) 一 (表达 式 )ROP( 表 达 式 》 
(表达 式 表 ) 一 (表达 式 ){, (表达 式 )} 
ROP—=>|=|<|>=|<=|<> 
(标识 符 ) 与 (无 符号 数 ) 由 词法 分 析 获 得 ,这 里 把 它 当 作 终 结 符 处 理 , 有 了 这 些 产生 式 , 夯 
出 其 对 应 的 转换 图 并 不 难 ,编写 递归 下 降 分 析 程 序 也 很 容易 .下面 给 出 (语句 分 析 的 例子 。 
[ 例 4.7] 分 析 EL 语言 (语句 的 递归 下 降 分 析 程 序 的 子 程序 如 下 : 
PROCEDURE SENTENCE; 
BEGIN 
CASE SYM OF 
‘ID' :BEGIN /* 分 析 赋 值 语 句 ,ID 指标 识 符 * / 


ADVANCE; 
IF SYM=':='THEN 
BEGIN 
ADVANCE; 
E /* 调 用 表达 式 过 程 */ 
END 
ELSE ERROR 
END; 
'begin' :CS; /* 调用 复合 语句 过 程 * / 
“让 :BEGIN 
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ADVANCE; 
EB; /* 调 用 条 件 表达 式 过 程 */ 
IF SYM<>'then THEN ERROR; 
ADVANCE:; 
SENTENCE; 
CT ”/* 调 用 条 件 语句 1x/ 
END; 
'while' :BEGIN 
ADVANCE; 
EB; 
IF SYM<>'do'THEN ERROR:; 
ADVANCE; 
SENTENCE 
END; 
'read' ;: BEGIN 
ADVANCE:; 
IF SYM 一 >'(THEN ERROR 
ADVANCE; 
IT; /* 调用 标识 符 表 过 程 * / 
IF SYM<>'")'THEN ERROR; 
ADVANCE 
END; 
‘write’': BEGIN 
ADVANCE; 
IF SYM<>'('THEN ERROR; 
ADVANCE; 
ET， /* 调用 表达 式 表 */ 
IF SYM<>'")'THEN ERROR; 
ADVANCE 
END; 
ELSE ” /x* 否则 分 析 空 语句 */ 
END{OF CASE) 
END; {OF PROCEDURE} 
对 于 ERROR ,可 以 根据 出 错 性 质 ,输出 相应 出 错 信息 和 出 错位 置 ,或 者 做 简单 的 修补 工 
作 ,以 便 语 法 分 析 能 继续 进行 并 尽 可 能 多 地 发 现 错误 。 
另外 ,对 CS,CT,EB,IT 等 非 终 结 符 也 可 编制 如 下 相应 的 过 程 进行 处 理 : 
PROCEDURE CS; /分 析 复 合 语句 x*/ 
BEGIN 
ADVANCE; 
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SENTENCE; 
WHILE SYM=';'DO 
BEGIN 
ADVANCE; 
SENTENCE 
END; 
IF SYM='end'THEN ADVANCE ELSE ERROR 
END; 
PROCEDURE CT; /* 分 析 条 件 语句 1x*/ 
BEGIN 
IF SYM= 'else THEN 
BEGIN 
ADVANCE:; 
SENTENCE 
END 
END; 
PROCEDURE EB; /* 条 件 表达 式 * / 
BEGIN 
E; 
IF SYM IN(>,<,=,>=,<=,<>)THEN 
BEGIN 
ADVANCE; 
E 
END 
ELSE ERROR 
END; 
PROCEDURE IT; /标识 符 表 */ 
BEGIN 
IF SYM<>'ID'THEN ERROR:; 
ADVANCE:; 
WHILE SYM=','DO 
BEGIN 
ADVANCE; 


IF SYM<>'ID'THEN ERROR ELSE ADVANCE 


END 
END; 
PROCEDURE ET:; /x* 表达 式 表 x* / 
BEGIN 
Ey 
WHILE SYM=','DO 


BEGIN ADVANCE;E END 
END; 
习 题 
4 一 1 设 文法 : 
G: 《DE=TE 
(C2) ET 
C3 T= 
(4) T—=F 
(C5) -> 
试 给 出 带 回溯 的 自 上 而 下 识别 句子 i 十 i# 的 过 程 。 
4-2 按 4.1 节 构造 一 个 不 确定 的 PDA, 它 能 识别 由 下 述 文法 定义 的 语言 。 
G (1) S>MIU 
(2) M>iEtMeM|b 
(3) UiEtS|iEtMeU 
(4) E—a 
4 一 3 消除 下 列 文法 的 左 递归 。 
Gs1 S>SA|Ablblc 
A—>Bcla 
BSblb 
Gss E>ET+|T 
T—TF* |F 
FEli 
Gss S 一 Vi 
Vi™>V:|ViiV; 
Ve—>Vs|V; 二 Vs 
Vs 一 Vix |( 
4-4 对 下 面 文法 的 每 个 非 终结 符 ,构造 其 首 符 集 First 和 随 符 集 Follow 。 
C.1: S>aAd 
A 一 BC 
B>ble 
Ccle 
Gs A—>BCc|gDB 
B—>bCDE|e 
C—>DaBlca 
D>dDle 
E>gAflc 
4 一 5 下 述 文法 消除 左 递归 提 过 公共 左 因子 之 后 是 否 是 LL(1) 文 法 ? 若是 , 则 构造 其 LL 
(1) 分 析 表 。 
Gis S>A 
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A—>aBlaC| Ad|Ae 
B—>bBCI|f 
Ce 
Gas。 A—>aAbc|BCf 
A>cle 
B—>Cdlec 
Cdfle 
4-6 考虑 表格 结构 文法 G。: 
S-=al .AICTY 
TT SIS 
(1) 消除 Gs 的 左 递归 ,然后 对 于 每 个 非 终结 符 , 写 出 不 带 回溯 的 递归 子 程序 ; 
(2) 经 改写 文法 是 否 是 LL(1)? 给 出 它 的 预测 分 析 表 。 
4-7 已 知 文法 G1 :S 一 Sx*xaPlaP| x*aP 
P 一 二 aP| 十 a 
(1) 将 文法 G 改写 成 LL(1) 文 法 G1; 
(2) 写 出 文法 G' 的 预测 分 析 表 。 
4-8 对 下 面 的 文法 Gs: 


ETE’ E' 一 十 E le 
T>FT’ T'—>Tle 
F—>PF’ F' 一 *F'|e 
P(E)|lal A 


(1) 计算 这 个 文法 的 每 个 非 终 结 符 的 First 和 Follow; 
(2) 证 明 这 个 文法 是 LL(1) 的 ; 
(3) 构造 它 的 预测 分 析 表 ; 
(4) 构造 它 的 递归 下 降 分 析 程 序 。 
4-9 给 出 下 述 文法 的 LL(1) 分 析 表 。 
Ge PROGRAM->~begin d; X end 
X—>d;X|sY 
Y—>;s Yle 
4 一 10 假定 表达 式 中 允许 十 ,* ,人 ^ (乘客) ,(,) 等 运算 符 和 分 隔 符 ,运算 规则 同 代数 运算 
规则 , 试 给 出 表达 式 的 LL(1) 文 法 及 其 递归 下 降 程序 。 
4 一 11 构造 习题 4-9 中 文法 Gs 的 自 上 而 下 分 析 状 态 表 。 语义 子 程 序 暂 不 考虑 。 
4 一 12 ”构造 习题 4-1 中 文法 G 的 LL(1) 预 测 分 析 表 , 按 分 析 表 给 出 语句 i 十 i# 的 分 析 过 程 。 
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5 ”优先 分 析 法 


自 下 而 上 语法 分 析 过 程 是 最 右 推导 的 逆 过 程 ( 即 最 左 归 约 ) ,从 构造 语法 树 的 观点 来 讲 , 是 
指 从 树 的 末端 ( 叶 ) 结 点 开始 ,逐步 向 上 修剪 ,直至 树 的 根 结 点 ,也 就 是 说 ,是 从 输入 串 开始 , 朝 
着 文法 开始 符号 进行 归 约 ,直至 到 达 文 法 开始 符号 为 止 的 过 程 。 这 里 所 说 的 输入 串 是 指 从 词 
法 分 析 器 送 来 的 单词 符号 组 成 的 有 限 序列 (二 元 式 序列 )。 

自 下 而 上 分 析 同 样 可 以 定义 一 个 PDA, 这 种 PDA 是 按 一 种 “ 移 进 一 归 约 ”方式 进行 工作 
的 , 即 它 自 左 至 右 把 输入 串 的 符号 一 个 个 地 移 进 栈 。 在 移 进 的 过 程 中 ,不 断 察 看 栈 顶 的 符号 
串 ,一旦 栈 顶 形成 某 个 句 型 的 句柄 时 ,就 将 此 句柄 用 相应 的 产生 式 左 部 符号 来 替换 ( 称 归 约 ) 。 
这 种 替换 可 能 做 多 次 ,直至 栈 顶 不 再 形成 句柄 为 止 。 然 后 继续 移 进 符号 ,重复 上 述 过 程 直至 栈 
项 只 剩 下 文法 开始 符号 ,输入 串 读 完 为 止 , 这 便 认为 识别 了 一 个 句子 。 下 面 我 们 举例 说 明 自 下 
而 上 分 析 过 程 。 

自 下 而 上 分 析 的 下 推 自动 机 框图 如 图 5. 1 所 输入 带 
示 。 具 体 说 明 如 下 : 

(1) 输入 带 上 记录 了 待 识别 的 语句 (单词 串 十 


语句 结束 符 # ) 。 下 语法 分 析 程 所 输出 带 
(2) 读 头 自 左 至 右 扫描 输入 牛 , 初 态 时 指 在 最 ” 下 lz | [过 | 六 
左 单词 符号 上 。 5.1 自 下 而 上 分 析 下 推 自动 机 框图 


(3) 初 态 时 栈 内 仅 有 栈 底 符 # 。 
(4) 语法 分 析 程 序 执行 的 动作 有 : 
。 移 进 : 读 和 人 一 个 符号 ( 即 单词 ) 并 压 人 栈 内 , 读 头 移 到 下 一 符号 位 置 ; 
， 归 约 : 检 查 栈 顶 若干 个 符号 串 是 否 能 用 语法 表 中 某 个 产生 式 进 行 归 约 , 如 可 以 归 约 , 则 
以 该 产生 式 左 部 符号 取代 栈 顶 若干 个 符号 ,同时 输出 产生 式 编号 ; 
， 识 别 成 功 : 移 进 归 约 最 终结 局 是 栈 内 只 剩 下 栈 底 符 和 文法 开始 符号 ,而 读 头 已 指向 语 
句 的 结束 符 # ; 
。 和 否则, 说明 输入 语句 有 错 。 
例如 ,考虑 如 下 文法 : 
(1) S>aAcBe 
(2) A 一 b 
(3) A 一 Ab 
(4) B>d 
试问 语句 abbcde 是 该 文法 的 合法 语句 吗 ? 
分 析 过 程 如 下 : 
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#S 


识别 成 功 


初 看 其 分 析 很 简单 ,其 实 不 然 。 若 第 5 步 使 用 产生 式 A 一 b 进行 归 约 ,就 不 能 识别 成 功 。 
那么 机 器 怎么 知道 选 产生 式 A 一 Ab 而 不 选 产生 式 A 一 b 呢 ? 我 们 按 上 述 的 输出 带 上 编号 造 
一 棵 语法 树 ( 如 右上 图 )。 从 语法 树 上 可 知 ,如 果 每 次 按 句 柄 归 约 , 便 可 获 成 功 。 因 此 ,关键 问 
题 是 找 句 柄 , 按 句柄 进行 规范 归 约 才能 正确 分 析 语 句 。 否 则 ,这 种 不 确定 的 分 析 方 法 是 不 能 作 
为 语法 分 析 的 工具 。 

确定 的 自 下 而 上 分 析 器 通常 分 为 两 大 类 :优先 分 析 器 (Precedence Parser) 和 LR 分 析 器 。 
本 章 先 讨论 优先 分 析 器 ,LR 分 析 器 留待 下 一 章 介绍 。 优 先 分 析 器 中 算 符 优先 分 析 法 特别 适 
合 于 表达 式 的 分 析 , 其 基本 点 是 按 算 符 的 优先 关系 ( 先 乘除 后 加 减 , 先 括 号 内 后 括号 外 等 ) 和 结 
合 规则 进行 语法 分 析 。 所 以 ,不 少 编译 程序 都 使 用 这 种 方法 分 析 表 达 式 ,用 其 他 方法 (如 递归 
子 程序 法 ) 分 析 语 法 其 余部 分 。 这 种 分 析 法 的 优点 是 直观 .简单 ,高效 .易于 手工 实现 。 


“5.1 简单 优先 分 析 方 法 


5.1.1 基本 思想 


为 了 寻找 句 型 中 的 句柄 , 需 对 名 型 中 相 邻 的 文法 
符号 VCVN UVr) 规 定 优先 关系 。 在 句 型 中 ,句柄 ( 某 \ 入 / 
产生 式 右 部 符号 串 ) 内 各 相 邻 符号 之 间 具有 相同 的 优 1 得 
先 级 ,用 符号 三 表示 , 读 作 优先 级 相等 。 由 于 句柄 要 先 pp 光 久 十 简 民 
归 约 ,所 以 规定 句柄 两 端 符号 优先 级 要 比 位 于 句柄 之 
外 而 又 和 句柄 相 邻 的 那些 符号 的 优先 级 要 高 。 图 5. 2 是 说 明 任 一 句 型 内 ,句柄 内 部 符号 及 其 
两 端 所 连接 符号 之 间 优 先 关系 的 示意 图 。 图 中 符号 "< ”和 ”>” 读 作 优 先 级 “ 低 于 ”和 优先 级 
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N Nas< NE N> NN, 


“高 于 ”, 它 是 用 于 表示 优先 级 关系 的 ,而 不 是 通常 代数 中 的 “小 于 ”“ 大 于 ”关系 。Ni… Nj 是 句 
柄 ,语法 分 析 程 序 可 以 通过 寻找 Ni_ 1 二 Ni 和 Ni 之 Ni+i 这 两 个 关系 来 确定 句柄 的 头 和 尾 , 从 
而 确定 句柄 以 进行 归 约 ,这 就 是 优先 分 析 法 的 基本 思想 。 

对 于 文法 中 的 所 有 符号 ,只 要 它们 可 能 在 某 个 句 型 中 相 邻 ( 即 连接 在 一 起 ) ,就 为 它们 规定 
相应 的 优先 关系 , 若 某 两 个 符号 永远 不 可 能 相 邻 则 它们 之 间 就 无 关系 。 

定义 :一 个 文法 G, 如 果 它 不 含 e 产 生 式 ,也 不 含 任何 右 部 相同 的 不 同 产 生 式 ,并 且 它 的 任 
何 符号 对 (X,Y),X、YE (Vn UVzr), 或 者 没有 关系 ,或 者 存在 下 述 三 种 关系 二 ,二 之 一 ， 
则 称 这 个 文法 是 一 个 简单 优先 文法 。 这 三 种 关系 是 : 

a. X=Y 当 且 仅 当 G 中 含有 形 如 P 一 …XY… 的 产生 式 。 

b. X 过 Y 当 且 仅 当 G 中 含有 形 如 P 一 …XQ… 的 产生 式 , 其 中 Q 为 非 终结 符 ,而 且 Q 方 
ese 

c. X .>>Y 当 且 仅 当 YY 为 文法 G 的 终结 符 ,G 中 含有 形 如 P 一 …QR… 的 产生 式 , 且 
Q 三 …X,YEFirst(R)。 

例如 ,假定 有 规则 S(T) 和 推导 TS>a, 则 S >) 和 a 呈 ) 成 立 。 注 意 , 上 述 R 可 能 是 
终结 符 , 也 可 能 是 非 终 结 符 。 如 是 终结 符 则 有 X 呈 R, 如 是 非 终 结 符 则 只 有 Q 三 R, 而 没有 X 
>R。 

对 任何 义 , 若 文 法 开始 符号 S 方 X…, 则 # 二 X; 若 S 三 …X, 则 又 之 #。 

我 们 把 文法 符号 之 间 的 这 种 关系 用 一 个 矩阵 表示 , 称 作 简 单 优先 和 矩阵。 它 的 行 标 、 列 标 都 
用 文法 符号 表示 。 例 如 ,考虑 文法 G5. 1: 

G5.1: S->bMb 


M—>(Lla 

L 一 Ma) 
按照 定义 ,用 手工 构造 它 的 优先 矩阵 如 表 5. 1 所 示 ,其 中 空白 项 表示 没有 关系 。 
表 5.1 优先 矩阵 


5.1.2 ”有关 文 法 的 一 些 关系 


在 讨论 构造 优先 矩阵 的 算法 前 , 先 讨 论 有 关 文法 符号 集合 上 的 一 些 关 系 。 
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集合 上 任意 两 个 有 序 元 素 或 者 满足 或 者 不 满足 某 种 性 质 , 则 称 该 性 质 为 集合 上 的 一 个 关 
系 。 比 如 ,“ 小 于 ”与 “等 于 ”关系 是 自然 数 集合 上 的 关系 ,而 这 里 二 ,> 与 关系 是 文法 符号 
集合 上 的 关系 。 为 了 表示 某 集合 上 两 个 有 序 元 素 a 与 b 满足 某 一 关系 人 ,采用 中 级 表示 法 即 
记 作 aRb。 应 注意 ,关系 的 两 个 元 素 的 次 序 不 能 对 调 , 也 即 不 能 由 aRb 推出 bRa,aRb 与 bRa 
表示 两 种 不 同 的 概念 。 
还 可 以 把 关系 看 作 满 足下 列 条 件 的 序 偶 集合 :(a,b) ER 当 且 仅 当 aRb。 如 能 从 (a,b) ER 
推出 (a,b)EP, 则 称 关系 了 包含 关系 R。 
关系 R 的 转 置 记 作 TRP(R) ,定义 为 :aTRP(R)b 当 且 仅 当 bRa。 例 如 ,自然 数 中 “大 于 ” 
关系 的 转 置 是 “小 于 ”关系 。 即 若 R={(a,b)| a>>b}, 则 TRP(R)={(a,b)|1a=b})。 
若 集合 中 所 有 元 素 c 都 满足 cRe, 那 么 这 种 关系 称 为 自 反 的 ,如 在 自然 数 中 “三 ”关系 是 自 
反 的 。 
设 R 和 P 是 定义 在 同一 集合 上 的 两 个 关系 , 则 R 和 了 的 乘积 定义 为 :RP 二 {(a,b) | 存在 
c; 以 使 得 aRc 且 cPb)。 例 如 , 设 在 整数 集合 上 的 两 个 关系 R 和 PP 定义 如 下 : 
R={(a,b)|b=a++1} 
P={(a,b)|lb=a+2} 
按 定 义 ,aRPb 当 且 仅 当 存在 c 使 得 aRc,cPb, 所 以 c=a 十 1 和 b=c 十 2, 即 b=a 十 3。 
利用 关系 的 乘积 可 定义 关系 R 的 方 寡 为 : 
R1I 一 R,R2 一 RR,…,R* 一 Re R=RR™!(n>1) 
R" 定义 为 恒 等 关系 即 aR"b, 当 且 仅 当 a=b。 
关系 R 的 传递 闭 包 R1+ 定 义 为 :Rt1 二 R'UR?U Ri…, 是 关系 R 的 各 次 方 寒 之 并 。 关 系 R 
的 自 反 传递 闭 包 R’' 定义 为 :R* = 二 R'URT+ ,也 即 R "一 RoURIUR2…。 
在 文法 符号 V(Vw UVr) 的 集合 中 ,我们 定义 两 个 关系 ， 
A First B 当 且 仅 当 存在 产生 式 A 一 B… A,BEV 
A Last B 当 且 仅 当 存在 产生 式 A 一 …B A,BEV 
同样 ,可 定义 这 些 关系 的 传递 闭 包 关系 与 自 反 传递 闭 包 关系 。 现 以 First 关系 为 例 : 
(1) A First+B 当 且 仅 当 存在 一 产生 式 序列 ,使 得 A 一 Bl… ,Bi 一 Bo…,… ,BB…, 或 写 
作 A 去 B…, 读 作 A 通过 1 步 或 1 步 以 上 推出 以 B 打 头 的 集合 ( 称 头 符 集 ); 
(2) A First”B 当 且 仅 当 A 说 B…, 读 作 A 通过 0 步 或 0 步 以 上 推出 以 B 打头 的 集合 。 
例如 ,考虑 以 下 文法 : 
G5.2: A—>Af 
A—>B 
B—Dde 
BDe 
Ce 
D>Bf 
显然 有 :A First A,A first B,B First D,C First e,D First B。 
在 First+ 中 ,应 该 有 序 偶 (A,A),(A,B),(A.D),(B,B),(B,D),(D,B),(D,D),(C,e)。 
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在 First* 中 ,应 该 有 序 偶 (A,A) ,(A,B),(A,D),(B,B),(B,D),(D,D),(D,B),(C,C)， 
(Ciejsgeneagdyd5fsb5 
不 难看 出 ,根据 First+ 传递 闭 包 的 定义 直接 去 构造 First+ 是 困难 的 ,特别 是 当 产 生 式 数目 
很 多 时 更 加 困难 。 下 面 利 用 布尔 矩阵 表示 关系 ,这 为 寻求 计算 集合 上 关系 的 算法 创造 了 有 利 
的 条 件 。 
假定 用 布尔 矩阵 Bs 表示 文法 符号 间 的 First 关系 ,那么 求 First+ 关系 可 以 转化 为 求 布尔 
矩阵 Ba 的 传递 闭 包 B 志 ,。 根 据 传递 闭 包 的 定义 ,有 BB 二 Bi UU BU… UB8w, 其 中 是 文 
法 符号 的 数目 。 因 此 ,可 以 把 求 传递 闭 包 转 化 为 求 布尔 矩阵 的 乘法 与 加 法 。 如 果 文 法 符号 比 
较 多 时 , 它 的 计算 时 间 也 是 相当 可 观 的 。 
1962 年 Warshall 提出 计算 布尔 矩阵 B* 算法 ,这 个 算法 的 效率 是 非常 高 的 。 下面 用 类 
Pascal 语言 写 出 该 算法 : 
PROCEDURE WARSHALL; 
TYPE BOOLM= ARRAY [1l1:n,1:n] OF BOOLEAN; /xn 是 文法 符 
号 数目 * / 
VAR i,j,k,n:INTEGER; 
A,B:BOOLM:; 
BEGIN 
A:=B; /*B 是 给 定 的 布尔 矩阵 */ 
FOR i:=1 TO n DO 
FORj:=1 TO n DO 
IF A[j,i]=1 THEN 
FOR k:=1 TO n DO 
ALj,kj: 二 ALj,k] or A[i,k]  /* 结 果 了 在 A 和 矩阵 中 */ 
END; 
该 算法 是 逐 列 查看 矩阵 元 素 , 当 查看 第 i 列 时 ,发 现 第 j 行 元素 ( 即 A[j, 让 ) 为 1, 便 把 第 i 
行 元 素 罗 辑 加 到 第 j 行 元 素 上 。 这 个 算法 比 用 布尔 矩阵 的 乘法 .加 法 要 简单 得 多 ,效率 也 高 


[ 例 5.1] 已 知 文法 G5. 2, 试 构造 关系 First 的 布尔 矩阵 Bsr 和 传递 闭 包 First 的 布尔 矩 
阵 Bw, 以 及 自 反 传递 闭 包 First* 的 布尔 矩阵 Bi 。 
解 :将 G5.2 文法 重 写 如 下 
A—>AfIlB 
B—>Dde| De 
C>e 
D—>Bf 
(1) First 的 布尔 矩阵 Ba 从 产生 式 很 容易 获得 ,如 下 所 示 : 
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(2) 用 两 种 方法 构造 Firsti 布尔 矩阵 。 


站 
first o 


Ua) 
Bar * Baoe , 按 一 般 布尔 矩阵 乘法 计算 ,可 以 求 得 : 


2 
first 


Ber UB 


i 
first 


a. Bi 


first 
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其 中 ,BB 


[~ ~ 瑟瑟 本 忆 王 
[= :四 ”本 富 忆 已， 已 
OO oO oo oo oo 
a 
OO oo oo oooc 
SS 呈 王 所 
TT SO oo oo oo 


0 0 0 0 0 0 0 
0 0 0 0 0 0 0 
0 0 0 0 0 0 0 
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first 
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二 
1 
000000 0 
1 
000000 0 
0 0 0 0 0 
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first 


frst UU BE 


Bi UB 


sh 
first 


所 以 :B 


示 : 


如 下 所 


二 
first ? 


b. 用 Warshall 算法 直接 从 Bie 求 得 B 


1 


0 0 0 


改 率 要 高 得 多 。 


允 


相同 ,但 用 Warshall 算法 的 


用 
first 


用 两 种 方法 构造 的 B 
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(3) 自 反 传递 闭 包 First ”的 布尔 矩阵 为 : 
Bi = Bh U Base 一 Bi U Bi 
其 中 ,Bi 称 恒 等 布 尔 矩 阵 ( 即 单位 矩阵 ) ,有 : 


1 有 有 人 人 人 人 Tiolid0 0 
0 10 0 0 0 0 0 
00 10 0 0 0 0 0 10 0 
B=|I0 1 0 1 0 0 0 Ba 一 |0 1 0 1000 
00 0 0 10 0 0000 10 0 
0 0 0 0 0 10 00 .000 10 
0 0 0 0 0 0 1 0 .000001 


5.1.3 优先 矩阵 的 构造 算法 


优先 矩阵 中 有 四 种 优先 关系 :三 ,二 、 汪 和 * 没 有” 关系。 构造 优先 关系 的 实质 就 是 在 文 
法 符号 集 上 求 出 满足 这 些 关系 的 序 偶 集 。 这 里 主要 讨论 二 .二 、 忆 三 种 关系 所 建立 的 序 偶 集 
合 。 因 为 不 是 这 三 种 关系 ,就 是 “没有 ”关系 ,所 以 “没有 ”关系 这 种 集合 不 必 求 。 

根据 简单 优先 文法 的 定义 ,能 求 得 构造 这 些 集合 的 算法 ,也 用 布尔 矩阵 表示 这 些 关系 。 

(1) = 关系 。 由 定义 X=Y 必定 存在 P>…XY… 产 生 式 。 因 此 ,只 要 依次 考察 文法 各 产 
生 式 右 部 ,如 果 有 …XY… 这 样 的 串 作 为 右 部 , 则 X=Y。 

(2) 一 关系 。 由 定义 X< Y 必定 存在 P>…XQ… 产 生 式 , 且 Q 方 Y…。 因此 有 X=Q， 
且 Q First+ Y。 根 据 关 系 乘积 的 定义 有 X(=)(First+ )Y, 所 以 一 一 (=)(First+ ) ,可 以 列 出 构 
造 优先 关系 二 的 算法 步骤 如 下 : 

a、 先 构造 文法 的 优先 关系 = 的 布尔 矩阵 Be ; 

b. 构造 关系 First 的 布尔 矩阵 Ba 

c, 利用 Warshall 算法 计算 First+ 的 布尔 矩阵 Bt ; 

d. 利用 两 个 布尔 矩阵 乘积 可 得 B< = (Bre) (Bt ) ,所 求 得 的 Bc 就 是 优先 关系 二 的 布尔 
和 矩阵。 

(3) 之 关系 。 由 定义 X 号 Y 必定 存在 P 一 …QR… 产 生 式 ,其 中 YY 为 终结 符 ,YE€ First 
CR) ,Q 三 …X。 也 就 是 说 有 Q Last+X,Q=R, 且 R First”Y, 成 立 。 

根据 关系 W 的 转 置 TRP(W) 定 义 :aTRP(W)b 当 且 仅 当 bWa, 所 以 Q Last+X 通过 转 置 
可 写作 X TRP(Last+ )Q。 根 据 关 系 乘积 的 定义 ,上 述 三 个 关系 可 写作 : 

X(TRP(Last* )) (=) (I+First* )Y 

其 中 ,First* 可 写作 I 十 First* ,1 二 First" 称 作 恒 等 关 系 ,因此 可 列 出 计算 关系 :二 = (TRP 
(Last+ )) (二) (I 十 First*+ )。 可 以 列 出 构造 优先 关系 > 的 算法 步骤 如 下 : 

a. 构造 关系 Last 的 布尔 矩阵 Bus: 
b. 使 用 Warshall 算法 计算 关系 Last+ 的 布尔 矩阵 Bt ,并 将 其 转 置 得 到 TRP(Bi.); 
c. 构造 优先 关系 = 的 布尔 矩阵 Be ; 
d. 构造 关系 First 的 布尔 矩阵 Ba ; 
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e. 使 用 Warshall 算法 计算 First* 的 布尔 矩阵 Bf., 并 由 此 得 I 十 Firstt 的 布尔 矩阵 
Bi U Bt..; 

f. 计算 布尔 矩阵 的 乘积 可 得 B= 二 (TRP(Bi)) (Be) (BUBi); 

g. 检查 。 如 果 YE Vw, 而 (X,Y) 求 得 的 关系 为 之 ,应 改 为 “没有 ?关系 ,因为 根据 定义 
YEVr。 

最 后 ,把 Be ,B<- ,B> 三 个 布尔 矩阵 合并 在 一 起 便 得 到 包括 所 有 优先 关系 的 优先 矩阵 。 
在 合并 前 ,应 将 每 个 布尔 矩阵 中 元 素 为 1 的 项 用 相应 的 ==, 二 ,> 符号 替换 ,把 元 素 为 0 的 项 
改 成 “没有 ?关系 ( 空 ) 即 可 。 

[ 例 $. 2] 设 有 文法 G5. 3 如 下 , 试 构造 其 优先 矩阵 。 

S>Wa,W—>a, W>Wb,W—WS 
解 :首先 将 文法 G5. 3 的 文法 符号 排 成 序 :S,W ,a,b。 


S Wab SWab 
0 1 0 0 0° 业 了 
0 1 0 0 1 1 0 
Bera = 由 Warshall 算法 求 得 Bt 二 
0 0 0 0 0 0 0 0 
0 0 0 0 0 0 0 0 
0 0 1 0 0 0 1 0 
1 OE 1 0 1 1 
Bt = 由 Warshall 算法 求 得 也 ,一 
0 0 0 0 0 0 0 0 
0 0 0 0 9 0 0 
0 1 0 0 
Sy 0 0 0 0 di a a 。 
TRP(Bua) 一 4 ( 注 : 求 转 置 矩阵 ,实际 上 就 是 行 与 列 对 调 。) 
0 1 0 0 
Yo 和 -有 0 1 1 0 3 本 业 让 
0 1 0 0 0 了 0 0 1 1 0 
Bést = Bi U Bés = U 一 
0 0 1 0 0 0 0 人 有 
中: 0 0 0 0 避 ,人 人 二 
三 个 关系 的 布尔 和 矩阵 分 别 表示 成 : 
0 0 0 0 0 0 0 0 
"D0. 1 0 二 二 
B= 一 
0 0 0 0 0 0 0 0 
办 有力 帮 0 0 0 0 
从 ,有 0 和 1 LV 0 0 0 0 0 0 0 0 
0 1.1 | i 1 1 WW :四 
Bs =B. Bi = 一 之 
和 0 0 0 0 0 0 0 000 0 0 0 0 0 
9700 0 1 0 0600 0 0 0 0 0 0 0 0 
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人 00 QO 0 1 1 1 0 
Bi =TRP(BL)B, Br 一 .0 0 I.0 .11 0 1 1 0 

| O00 .0 0 和 汶 

VE! 0 和 O00 .0 O00 全 1 

A O00 = 

人 汪 0 0 0 0 

二 > 
0 0 1 1 0 0 二 
人 全 了 了 0 0 全 


合并 B- ,B<. ,B>~ 最 后 获得 简单 优先 矩阵 如 表 5. 2 所 示 ( 布 尔 和 矩阵 中 的 “0 用 空白 取代 ) 。 
表 5.2 简单 优先 矩阵 


由 表 可 见 , 序 偶 (W,a)===| 一 含有 两 个 关系 ,所 以 G5. 3 文法 不 是 简单 优先 文法 。 同 样 ， 
可 求 得 表达 式 文法 :E>E 十 TIT,T 一 Tx FIF,F 一 (E)|i 也 不 是 简单 优先 文法 ,因为 存在 十 二 
全 且 十 过 First* (T), 即 十 过 T, 以 及 (=E 有 (< First(E), 即 (< EE。 


5.1.4 简单 优先 分 析 算 法 


我 们 使 用 下 推 自动 机 进行 简单 优先 分 析 , 下 推 自动 机 如 图 5. 3 所 示 ,分 析 算 法 用 类 Pascal 
语言 描述 如 下 : 
PROCEDURE SPA; 输入 带 
BEGIN 
i:=1; /*i 为 栈 指 针 x*/ 
STACK(i):='#'; 


ADVANCE; /1* 读 -单词 至 SYMx / 
H:WHILE NOT (STACK (iD) :=>SYM)DO 
BEGIN s.3 简化 优先 分 析 的 PDA 
PUSH (CSYM,STACK) 
ADVANCE 
END:; 


j:=is 
WHILE NOT(STACK(j—1)<~ STACKG))DO 
j: 二 j 一 1; /x* 找 句柄 */ 
IF SEARCH (STACKG)…STACK(D ,P)= 'true’ THEN 
9 


/查找 P 产 生 式 表 */ 
BEGIN 
I= 
PUSH (A,STACK); /* A 是 产生 式 左 部 , 它 蔡 代 句 柄 x* / 
IF (i=2) AND (STACK(i)='S') AND (STACK(i—1)='#") 
THEN GOTO S ELSE GOTO H 
END 
ELSE ERROR 
S:END; 
其 中 ,PUSH(X,STACK) 的 含义 是 i:=i 十 1;STACK(i) :二 X。SEARCH 是 一 个 布尔 函 
数 过 程 , 其 功能 是 在 P 产 生 式 表 中 查找 是 否 有 右 部 形 如 “STACKG)…STACK(i) ”的 产生 式 ， 
车 有 , 则 返回 值 为 true; 和 否则 ,为 false。 若 返回 true, 表 示 按 正常 归 约 ,分 析 继 续 进行 ;车 返回 
false, 表 示 输 入 串 有 错 ,分 析 失 败 ,程序 结束 ,这 时 栈 内 不 是 留 下 文法 开始 符号 。 
[ 例 5.3] 对 文法 G5. 1 及 其 简单 优先 矩阵 表 5. 1, 试 分 析 语 句 b((aa)a)b# 的 工作 过 程 。 
解 : 分 析 过 程 见 下 表 : 


输入 串 
# 四 b((aa)a)b# 


#b 。 ((aa)a)b# 


#b(( 。 aa)a)b# 


#b((a . a)a)b# 


#b((M a)a)b# 


#b((Ma )a)b# 


#b((Ma) . a)b# 


#b((L » a)b# 


#b(M a)b# 


#b(Ma )b# 


#b(Ma) 


#b(L 


#bM 


#bMb 


#S 
成 功 


简单 优先 分 析 法 技术 简单 ,从 理论 上 讲 , 它 似乎 是 一 种 行 之 有 效 的 、 可 靠 的 技术 ,而 且 它 也 
反映 自 下 而 上 的 基本 方法 ,但 在 实际 应 用 中 却 发 现 许多 CFG 文法 不 是 简单 优先 文法 ,也 就 是 
说 许多 CFG 文法 造 出 的 简单 优先 矩阵 都 存在 多 重 定义 项 (如 5.1. 3 节 所 介绍 ) ,甚至 连 无 二 义 
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性 的 表达 式 文法 也 不 是 简单 优先 文法 ,所 以 它 的 适用 范围 很 小 ,虽然 通过 改写 文法 ,能 使 其 变 
成 简单 优先 文法 ,但 毕竟 它 的 分 析 表 尺寸 太 大 了 ,实用 价值 不 大 。 不 过 在 介绍 构造 简单 优先 矩 
阵 时 ,引进 了 集合 上 关系 的 概念 以 及 用 作 计 算 关系 的 传递 闭 包 的 Warshall 算法 等 ,为 以 后 的 
研究 提供 了 有 用 的 方法 。 优 先 分 析 法 还 有 弱 优 先 分 析 法 和 算 符 优先 分 析 法 等 ,其 中 算 符 优先 
分 析 法 可 以 分 析 相 当 部 分 的 程序 设计 语言 的 文法 ,特别 适合 分 析 表 达 式 文法 。 


5.2 算 符 优先 分 析 法 

算 符 优先 分 析 法 是 一 种 简单 直观 ,特别 方便 进行 表达 式 分 析 , 并 且 易 于 手工 实现 的 方法 。 
算 符 优先 分 析 是 自 下 而 上 归 约 的 过 程 , 但 这 种 归 约 未 必 严 格 按照 句柄 归 约 。 也 就 是 说 , 算 符 优 
先 分 析 法 不 是 一 种 规范 归 约 法 。 

算术 表达 式 计算 的 基本 口诀 是 : 先 乘除 后 加 减 , 同 级 算 符 从 左 算 到 右 。 这 句 话 道 出 了 计算 
的 要 领 :第 一 ,四 则 运算 分 成 两 级 ,乘除 为 一 级 ,加 减 为 男 一 级 ,乘除 级 别 高 于 加 减 级 别 ;第 二 ， 
同 级 运算 先 算 左 边 算 符 后 算 右边 算 符 。 根 据 这 个 口诀 ,车 每 步 只 做 一 个 运算 , 则 任何 四 则 运算 
题 的 计算 过 程 是 唯一 的 ,答案 也 是 唯一 的 。 例 如 ,8 十 7 一 6* 5/3 的 计算 过 程 是 : 


8 十 7 一 6x 5/3 

一 15 一 6x* 5/3 (十 ,一 ) 同 级 , 先 做 左边 的 “十 ”运算 

一 15 一 30/3 (一 ,* ) 不 同 级 ,“x* ”高 于 “一 ”, 先 做 “x* ”运算 
一 15 一 10 (一 ,/) 不 同 级 ,“/” 高 于 “一 ”, 先 做 “/” 运 算 


=5 
对 于 包含 有 括号 和 单 目 负 的 算术 表达 式 ,我 们 对 口诀 进行 补充 : 先 括号 内 后 括号 外 , 单 目 
负 算 符 级 别 低 于 乘除 ,高 于 加 减 ,这 样 算术 表达 式 的 计算 过 程 也 是 唯一 的 。 
所 谓 算 符 优先 分 析 法 是 仿效 上 述 计算 过 程 而 构造 的 一 种 语法 分 析 方 法 。 这 种 方法 的 关键 
在 于 规定 算 符 (更 一 般 地 说 是 指 终结 符 ) 的 优先 级 及 结合 性 质 。 下 面 , 沿 着 这 种 想法 ,讨论 算 符 
优先 分 析 法 。 
在 第 2 章 曾 介绍 过 表达 式 文法 ,这 里 重 写 如 下 : 
G5.4 EsETEIE—EIE* EIE/EIEY|i 
这 是 二 义 文 法 ,对 于 该 文法 的 句子 可 能 有 几 种 规范 推导 ,因而 也 有 几 种 不 同 的 规范 归 
约 。 若 用 它 来 计 值 也 有 几 种 不 同 的 结果 ,但 若 采用 上 述 关于 算 符 优 先 顺序 和 结合 规则 的 规 
定 , 并 按 这 种 规定 进行 归 约 , 则 句子 的 归 约 过 程 便 是 唯一 的 ,当然 也 有 唯一 的 计 值 结果 。 例 
如 ,句子 : 
i 
的 归 约 过 程 如 下 , 它 是 在 自 左 至 右 扫 描 输 入 串 的 情况 下 ,比较 相继 两 个 算 符 ( 终 结 符 ) 而 决定 动 
作 的 : 


(1) i 十 i 一 ix (i+D) 设 算 量 级 别 最 高 

(2) E 十 i 一 ix (i 十 i 

(3) 下 十 E 一 ix (i+i) (十 ,一 ) 同 级 , 先 归 约 左边 的 “十 ” 
(4) 下 一 ix (i 十 iD 

(5) E—Ex* (i+i) (一 ,* ) 不 同 级 , 先 归 约 右边 的 “*” 
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(67 下 一 及 和 关 《 卫 填 动 先 括号 内 ,后 括号 外 


(7) E—Ex* (E+E) 归 约 括号 内 
(8) E 一 Ex (E) 归 约 括号 对 
(9) E—Ex*E 先 归 约 “x*” 
(C10) 下 一 二 后 归 约 “一 ” 
(11 这 


从 上 述 过 程 可 见 , 如 能 对 所 有 算 符 ( 更 确切 地 说 是 终结 符 ) 定 义 某 种 优先 关系 , 则 借助 于 这 
种 关系 可 以 很 容易 找 出 可 归 约 的 串 并 对 它 进 行 归 约 ,从 而 达到 自 下 而 上 分 析 的 目的 。 


5.2.1 算 符 优先 分 析 技 术 的 引进 


算 符 优先 分 析 法 的 关键 是 比较 两 个 相继 出 现 的 终结 符 的 优先 级 而 决定 应 采取 的 动作 。 要 
完成 运算 符 间 优先 级 的 比较 ,最 简单 的 办 法 是 先 定义 各 种 可 能 相继 出 现 的 运算 符 的 优先 级 ,并 
将 其 表示 成 矩阵 形式 ,在 分 析 中 通过 查询 矩阵 元 素 而 获得 算 符 间 的 优先 关系 。 

对 于 任何 两 个 可 能 相继 出 现 的 终结 符 a 和 b 具有 形式 *…ab…” 或 “…aQb…”,QE Vy, 定 
义 a,b 之 间 有 如 下 三 种 关系 : 

(1) a 二 b,a 的 优先 级 低 于 b; 

(2) a 三 b,a 的 优先 级 等 于 b; 

(3) a 之 b,a 的 优先 级 高 于 b; 

如 果 a 和 bb 在 任何 情况 下 不 可 能 相继 出 现 , 则 a,b 之 间 无 关系 。 

我 们 将 文法 G5. 4 的 所 有 终结 符 之 间 的 关系 用 一 个 矩阵 表示 , 称 其 为 算 符 优先 表 , 如 表 
5.3 所 示 。 


表 5.3 算 符 优先 表 


左 符 和 全 等 x ( ) i # 
六 > < < > ~ > 
¥* > > ~ > < > 
( ~ ~ < we 
) > > > > 
1 > > > ee 
井 < < < ~ 


其 中 ,十 包括 一 ; * 包括 /;# 是 一 个 特殊 符号 ,用 作 语 句 开 始 符号 和 结束 符号 ,习惯 上 也 把 
它 当 作 终 结 符 。 怎 样 构造 表 5. 3 在 下 一 节 介 绍 , 这 里 仅 说 明 它 是 满足 通常 数学 上 的 习惯 约 
定 的 : 
(1) 先 乘 除 后 加 减 , 有 十 < * ,* 之 十 ; 
(2) 先 括号 内 后 括号 外 ,有 十 二 (,* 二 (,) 之 十 ,) 之 *; 
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(3) 同 级 采用 左 结合 律 . 有 十 之 十 ,# >#; 


(4) 此 外 , 算 量 i 的 优先 级 高 于 算 符 ,因为 算 量 是 计算 的 对 象 ,当然 应 该 先 算 它 , 设 算 符 用 


0 表示 , 则 i 呈 0, 或 0 i; 


(5) 语句 开始 和 结束 符号 # 与 终结 符 a 相继 出 现时 ,应 该 有 # < a 和 a "># ,从 而 保证 语 


名 内 先 归 约 。 
最 后 ,由 于 括号 是 成 对 被 归 约 的 ,所 以 (=)。 


请 注意 ,优先 关系 不 同 于 代数 中 的 “之 "“ 一 ”、 | 


atb*c …# 


“< 二" 关系。 例如 a :二 b 不 意味 着 b=. a, 实 际 上 输入 带 


有 ) 之 十 ,十 全);a=b 不 意味 着 b=a, 实 际 上 有 
(=) 而 ) 和 (之 间 无 关系 ,可 见 左右 位 置 很 重要 。 

下 面 使 用 表 5. 3 来 构造 一 个 分 析 文 法 G5. 4 
句子 的 算法 , 即 所 谓 直观 算 符 分 析 法 。 它 使 用 两 个 


SYM 


直观 算 符 优先 法 
| 优先 表 | 


工作 栈 :一 个 称 为 OPTR 算 符 栈 ,用 来 存放 运算 符 图 5.4 直观 算 符 优先 分 析 法 
及 括号 ; 另 一 个 称 作 OPND 算 量 栈 ,用 来 存放 操作 数 和 运算 结果 。 初 态 时 OPND='',OPTR 


二 '#', 其 下 推 自动 机 示意 图 如 图 5.4 所 示 。 


设 OPTR 栈 的 栈 顶 符号 用 0 表示 ,OPND 栈 的 栈 顶 符号 用 x 表示 


分 析 算 法 (算法 5. 1) 如 下 : 
PROCEDURE 直观 算 符 优先 分 析 ; 
BEGIN 
OPND:="'; 
OPTR:='#'; 
FLAG:=true; 
ADVANCE; /* 读 一 单词 至 SYMx/ 
WHILE FLAG DO 
BEGIN 


。 用 类 Pascal 语言 描述 


IF 0='#'AND SYM='#'THEN FLAG:=false /x* 成 功 */ 


ELSE IF 0="'('AND SYM=')'THEN 


/* 匹配 括号 对 x*/ 


BEGIN 上 弹 OPTR;ADVANCE END 


ELSE IF SYM €E 算 量 THEN 


BEGIN 将 SYM 压 和 人 OPND;ADVANCE END 
ELSE IF 0< SYM THEN /* 移 进 */ 

BEGIN SYM 进 栈 ;ADVANCE END 
ELSE IF 4:~SYM THEN /关上 归 约 </ 


BEGIN 


上 弹 OPND 栈 顶 两 项 r 和 x2; 
/用 作 表达 式 计 值 * / 


并 以 zi0xs 压 入 栈 内 ; 
上 弹 OPTR 
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END 
ELSE ERROR /* 调 出 错 处 理 程序 x / 
END 
END:; 
[ 例 $. 4] 表达 式 8 十 7 一 6 * 5/3# 的 计 值 分 析 过 程 如 表 5.4 所 示 。 
表 5.4 表达 式 分 析 过 程 


输入 串 
上 7 一 6x 5/3## 


上 7 一 6x 5/3 井 


7 一 6x* 5/3 井 


一 6 5/3# 


一 6 * 5/3# 


6x*5/3# 


x*5/3# 


5/3# 


| 共 | 共 | 共 | 共 | 共 | 共 | 苍 | 共 | 其 | 共 | 共 | 等 | 共 | 和 共 


从 这 个 例子 看 到 ,使 用 算 符 优先 分 析 法 直接 把 表达 式 译 成 目标 指令 也 是 很 方便 的 ,只 要 在 
归 约 时 不 是 计算 rabrxs 的 值 , 而 改 为 生成 相应 的 指令 (0,r ,rz,T) 即 可 。 其 中 工 为 临时 变量 ， 
用 来 代替 mbrs 算 量 栈 内 容 。 该 指令 格式 称 为 四 元 式 , 将 在 第 7 章 介绍 。 

这 里 介绍 的 算法 采用 两 个 栈 , 它 存在 严重 缺点 ,甚至 会 把 错误 句子 当 作 合 法 句子 来 分 析 。 
譬如 ,句子 ii 十 ix 十 i( ) 若 用 上 面 的 算法 进行 分 析 , 会 被 误 认为 是 合法 句子 。 另 外 , 它 也 无 法 
指出 输入 串 的 出 错位 置 , 而 这 对 编译 程序 来 说 却 是 非常 重要 的 。 

算 符 优先 分 析 法 的 男 一 个 缺点 是 对 于 含有 单 目 “ 负 ”和 单 目 “ 正 ” 的 算术 表达 式 不 太 好 处 
理 。 例 如 : 

中 的 第 一 个 “一 ”与 第 二 个 “一 ”在 性 质 上 是 不 同 的 ,前 者 是 单 目 “ 负 ”, 后 者 是 双 目 运算 符 “ 减 ”， 
同一 符号 代表 两 种 不 同 身份 ,属于 两 个 不 同 的 优先 级 。 通 常 单 目 “ 负 ” 的 优先 级 应 低 于 乘除 ,而 
高 于 加 减 。 为 了 识别 单 目 “ 负 ”运算 符 .往往 要 求 记 住 前 一 个 已 扫描 过 的 符号 。 例 如 ,在 

FORTRAN 中 凡 直 接 出 现在 赋值 号 .逗号 ,逻辑 运算 符 或 左 括号 之 后 的 “一 ”都 是 单 目 “ 负 ”。 
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如 果 让 词法 分 析 程 序 来 承担 这 项 工作 ,并 把 单 目 “ 负 ”转换 为 文法 中 没有 使 用 的 一 个 特殊 符号 
(例如 “@”) ,那么 就 可 以 用 算 符 优先 分 析 法 来 分 析 了 。 

尽管 算 符 优先 分 析 法 有 这 些 缺 点 ,但 由 于 它 简单 明了 ,易于 手工 实现 ,因此 许多 编译 程序 
仍然 采用 它 ,特别 是 用 它 来 分 析 各 种 算术 表达 式 。 


5.2.2 算 符 优先 文法 及 优先 表 的 构造 


定义 :给 定 上 下 文 无 关 文 法 G, 若 G 中 没有 形 如 A 一 …BC… 的 产生 式 , 称 G 为 算 符 文法 ， 
其 中 A,B,CE Vy。 

算 符 文法 的 产生 式 右 部 不 包含 两 个 相继 的 非 终结 符 , 保 证 了 两 个 运算 符 之 间 只 有 一 个 操 
作 数 ,这 正 是 算 符 文法 所 要 求 的 句 型 。 

定义 : 设 G 是 一 个 不 包含 空 串 产生 式 的 算 符 文法 ,并 设 a,b€E Vr;P,Q,RE Vn, 定义 关系 : 

(1) a 三 b, 当 且 仅 当 G 中 含有 形 如 P 一 …ab… 的 产生 式 , 或 P>…aQb… 的 产生 式 ，; 

(2) a 过 b, 当 且 仅 当 G 中 含有 形 如 P->…aR… 的 产生 式 , 其 中 及 云 b…, 或 R 坪 Qb…; 

(3) a 之 b 当 且 仅 当 G 中 含有 形 如 P->…Rb… 的 产生 式 , 其 中 有 三 …a, 或 R 羡 …aQ。 

若 G 中 任何 终结 符 序 偶 (a,b) 至 多 满足 上 述 关系 之 一 , 则 称 G 为 算 符 优先 文法 , 写 
作 OPG。 

这 两 个 定义 相当 于 对 文法 的 句 型 和 可 归 约 短语 作 了 如 下 约定 : 


设 AlAs…Ai_1AiAit1…A。 是 文法 G 的 一 个 句 型 ， S 

(DD) 若 AliE VA, 则 ALi ,AhtE Vr, 即 不 允许 出 现 相继 一 一、 
两 个 非 终结 符 。 A 

(2) 车 BiB,…B。 是 当前 可 归 约 短语 ,并 可 归 约 为 Ai( 如 ys 
右 图 ), 则 ， | 


Q@Bi B,…B。_1B。 中 不 能 有 相继 两 个 非 终结 符 且 相 邻 的 终结 符 优先 级 全 相等 ; 

加 对 于 B,B:… 了 Bu 中 首 终结 符 b 有 Ai-:< b; 

加 对 于 B, Bo…B。 中 尾 终结 符 b 有 b 之 Ai。 

实际 上 ,可 归 约 短语 是 某 产 生 式 右 部 符号 串 ( 这 里 仅 考 虑 终结 符 , 而 非 终结 符 取 什么 名 不 
考虑 ) ,所 以 通过 检查 G 的 每 个 产生 式 的 每 个 候选 式 , 很 容易 查找 出 a 三 b 的 终结 符 序 偶 。 为 
了 找 出 所 有 满足 关系 < 和 的 终结 符 序 偶 , 只 要 找 出 文法 G 的 每 个 非 终结 符 P 的 首 终结 符 
集 和 尾 终结 符 集 ( 因 为 找 可 归 约 短语 的 首 终结 符 集 . 尾 终结 符 集 与 找 其 左 部 的 非 终 结 符 首 终结 
符 集 . 尾 终结 符 集 等 价 ) 。 

定义 : 首 终结 符 集合 FIRSTVT(P)=={alP 方 a… 或 P 广 Qa*…,a€Vi,P,QEVy)。 

定义 : 尾 终结 符 集合 LASTVT(P) 二 {alP 方 …a 或 P 广 …aQ,a€Vi,P,QE Vy})。 

有 了 这 两 个 集合 之 后 ,就 可 以 通过 检查 每 个 产生 式 的 每 个 候选 式 ,确定 满足 关系 < 和 > 
的 所 有 终结 符 序 偶 。 例 如 ,假定 产生 式 右 部 有 形 如 …aP… 的 串 , 那 么 对 于 任何 b€ FIRSTVT 
(P) ,有 a<< b。 

同样 地 ,假定 产生 式 右 部 有 形 如 …Pb… 的 串 , 那 么 对 于 任何 aE LASTVT(P), 有 
网 
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[ 例 $. $] 设 文法 G 的 产生 式 为 
S-~aAcBe， A—>Ablb, Bd 
计算 每 个 非 终 结 符 的 FIRSTVT 与 LASTVT 及 所 有 终结 符 之 间 的 关系 。 
解 :FIRSTVT(S)=={a) LASTVT(S)= {e} 
FIRSTVT(A)={b} LASTVT(A)={b} 
FIRSTVT(B)={d} LASTVT(B)={d} 
二 关系 :查看 aAcBe 串 . 有 a= cc=el; 表 5.5 关系 矩阵 
过 关系 :查看 aAcBe 串 , 有 a<< FIRSTVT(A), 即 
a<< b 和 ce<< FIRSTVT(CB) , 即 c 一 d; 
呈 关 系 :查看 aAcBe 串 ,有 LASTVT(A) 之 ec 
即 b 咏 c 和 LASTVT(B) .>e, 即 d .>e; 查 看 Ab 
串 有 LASTVT(CA) 之 b, 即 b 之 b。 
画 成 关系 矩阵 如 表 5. 5 所 示 。 从 上 面 的 造 表 过 
程 发 现 ,只 需 察看 产生 式 右 部 串 长 过 2 的 串 。 
下 面 讨论 构造 集合 FIRSTVT(P) LASTVT(P) 
的 算法 以 及 构造 算 符 优先 表 的 算法 。 
1) 构造 集合 FIRSTVT(P) 的 算法 
按 FIRSTVT(P) 的 定义 ,可 以 用 下 面 两 条 规则 来 构造 FIRSTVT(P): 
(1) 车 有 产生 式 P>a… 或 P>Qa…, 则 a€ FIRSTVT(P); 
(2) 若 aEFIRSTVT(Q) , 且 有 产生 式 P>Q…, 则 a€ FIRSTVT(P)。 
规则 (1) 是 求 P FIRSTONE a 关 系 , 即 当 且 仅 当 有 产生 式 P>a… 或 P>Qa…; 规 则 (2) 是 
求 P FIRST”Q,P、.QEV, 这 是 求解 自 反 传递 闭 包 问题 ,用 Warshall 算法 很 容易 求 得 。 因 此 
FIRSTVT(P)= (FIRST* )(FIRSTONE) 。 
下 面 介绍 另 一 种 构造 集合 FIRSTVT(P) 的 算法 ,在 这 个 算法 中 用 了 两 个 数据 结构 :一 个 
是 二 维 的 布尔 矩阵 下 ,其 行 标 为 非 终结 符 P, 列 标 为 终结 符 a, 使 得 FLP,a] 为 真 的 条 件 是 当 且 
仅 当 aEFIRSTVT(CP) ; 另 一 个 是 栈 STACK , 栈 中 动态 存放 的 是 凡是 在 FLP,a] 中 出 现 过 真 的 
序 偶 (P,a) 。 其 算法 如 下 : 
(1) 将 布尔 矩阵 各 元 素 置 假 , 栈 置 空 ( 置 初 值 ); 
(2) 按 上 述 规 则 (1) 查 看 产生 式 , 对 于 形 如 Pa… 或 P>Qa… 的 产生 式 ,P,QE Vw,a€ Vr 
置 相 应 FLP,aj 为 真 ,并 将 序 偶 (P,a) 推 进 栈 内 ; 
(3) 按 上 述 规则 (2) ,对 栈 施加 如 下 操作 :弹出 栈 顶 序 偶 并 记 作 (Q,a) ,查看 所 有 产生 式 是 
和 否 有 形 如 P-~>Q… 的 产生 式 , 若 有 , 且 a&FIRSTVT(P) ( 即 F[P,a]== 假 ), 则 将 FLP,a] 置 为 
真 ,并 把 (P,a) 推 人 栈 内 (表示 a 也 属于 FIRSTVT(P)); 
(4) 重复 步骤 (3) ,直到 栈 空 为 止 。 那 么 在 FLP,aj 中 ,凡是 “ 真 ” 的 元 素 即 属于 了 的 首 终结 
符 集 。 
稍微 形式 化 一 点 算法 可 写 为 : 
PROCEDURE FIRSTVT(P); 
BEGIN 
FOR 每 个 非 终 结 符 P 和 终结 符 a DO F[P,a]:=false; /初始 化 x/ 
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STACK.:=" '; 
FOR 每 一 个 形 如 P>a… 或 P>Qa… 的 产生 式 ”DO INSERT(P,a); 
WHILE STACK 非 空 DO 

BEGIN 


把 STACK 栈 顶 序 偶 记 作 (Q,a) 并 弹出 ; 
FOR 形 如 P-~Q… 的 产生 式 ”DO 
INSERT (P,a) 
END OF WHILE 
END; 
PROCEDURE INSERT(P,a), 
BEGIN 
IF NOT F[P,a] THEN 
BEGIN 
F[P,a]:=TURE; 
把 (P,a) 推 人 STACK 栈 
END 
END; 
类 似 地 ,也 能 写 出 构造 LASTVT(P) 的 算法 。 
2) 构造 算 符 优先 表 的 算法 
PROCEDURE OPT:; 
FOR 每 条 产生 式 P>X1X,…X。 DO 
FOR i:=1 TO n 一 1 DO 
BEGIN 
IF Xi 和 Xi 均 为 终结 符 THEN 置 Xi; 二 Xi; 
IF i<n 一 2 且 Xi;,Xiys 都 为 终结 符 
但 Xi+1 为 非 终 结 符 THEN 置 X= Xi;s 
IF X; 为 终结 符 而 Xi+ 为 非 终结 符 THEN 
FOR FIRSTVT(Xi41) 中 的 每 个 a DO 
置 Xi 一 ay 
IF X; 为 非 终 结 符 而 Xi;1 为 终结 符 THEN 
FOR LASTVT(X;) 中 的 每 个 a DO 
置 a 之 Xi 
END; 


定义 :如 果 文 法 G 按 此 算法 构造 出 的 优先 表 没 有 重 定义 项 , 则 该 文法 G 是 一 个 算 符 优先 
文法 。 


/* 当 串 长 和 1 时 ,循环 不 做 * / 
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[ 例 5. 6] 试 构造 下 面 文法 的 算 符 优先 表 。 
S—if E, then E else E 
E>E+TIT 
T>TxF|F 
Fi 
Eu 一 b 
解 :首先 求 每 个 非 终结 符 的 首 终结 符 集 与 尾 终结 符 集 。 为 了 考虑 语句 的 开始 和 结束 符号 
“##”, 将 文法 进行 拓 广 ,增加 S' 一 #S# 产 生 式 ， 


FIRSTVT(S)= {if} LASTVT(S)= {else; +, * ;i 
FIRSTVT(E)= {+, *, i} LASTVT(E)={+,， *, i) 
FIRSTVT(CTY=4¥% 起 LASTVT(T)={*;i 
FIRSTVT(F)={i} LASTVT(F)= {MD 
FIRSTVT(E:)={b} LASTVT(Es)={b} 


按 算法 可 以 填写 算 符 优先 表 如 表 5.6 所 示 。 
表 5.6 算 符 优 先 表 


注 : 拓 广 产生 式 S 一 #S# 的 右 部 串 # S# 按 定义 应 有 一 上 ,但 在 语法 分 析 时 , 当 栈 项 仅 剩 下 栈 底 符 # ,而 读 头 指 
向 串 结束 符 # 时 ,应 视 作 识别 成 功 , 不 再 将 串 结束 符 推进 栈 。 所 以 ,这 两 个 符号 不 能 看 作 优先 级 相等 ,而 应 看 
作 无 关系 。 


5.2.3 算 符 优先 分 析 的 若干 问题 


1) 优先 表 构 造 算 法 的 讨论 
构造 优先 表 的 算法 仅 反 映 文法 符号 间 的 关系 ,并 未 反映 附加 条 件 , 解 决 不 了 二 义 文法 
问题 。 
例如 EE 二 ElEx*El(E)|i 是 二 义 文法 ,车 按 此 文法 构造 算 符 优先 表 , 有 可 能 出 现 多 重 
定义 项 。 因 为 : 
FIRSTVT (了 BD)= 一 1 90 计 LASTVT(E)= {二 +, * ,),i} 
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考察 产生 式 右 部 字符 串 E 十 E, 有 :LASTVT(E) 十 , 即 十 之 十 ,* > 十 ,) 人 > 十 ,1 十 ; 
十 < FIRSTVTCE) , 即 十 < 十 ,十 二 * ,十 < (, 十 二 i。 其 中 有 十 之 十 又 有 十 < 十 , 表 


示 优 先 表 中 出 现 重 定义 项 ,所 以 此 文法 不 是 算 符 优先 文法 。 


2) 非 规 范 分 析 

算 符 优先 分 析 中 ,我 们 仅 研究 终结 符 之 间 的 优先 关系 ,而 不 考虑 非 终 结 符 之 间 的 优先 关 

系 , 对 非 终结 符 取 什么 名 称 也 不 感 兴趣 。 从 前 面 讨论 的 优先 分 析 方 法 看 到 ,对 可 归 约 短语 的 形 

成 ,仅仅 是 通过 比较 相 邻 的 终结 符 而 且 必 须 至 少 包含 一 个 终结 符 , 这 一 点 与 规范 归 约 过 程 有 所 

不 同 。 因 为 ,规范 归 约 是 严格 按 句柄 进行 归 约 的 ,是 终结 符 与 非 终结 符 一 起 考虑 的 ,只 要 栈 顶 

已 形成 了 句柄 ,不 管 句柄 内 是 否 包 含 终结 符 总 要 进行 归 约 。 所 以 , 它 存在 对 单个 非 终结 符 的 产 
生 式 归 约 ,如 P>Q,P,QE Vy, 将 Q 归 约 为 P。 例 如 ,考虑 非 二 义 的 表达 式 文 法 G(E): 

E>E+TIT 


Dad 


x*F|F 


F-~~(E)1i 
下 面 对 识 别 语句 iixi 的 过 程 分 规范 分 析 与 算 符 优先 分 析 两 种 情况 讨论 之 。 
(1) 规范 归 约 过 程 及 其 语法 树 


i 十 i 


x*i# 


F 十 ixi 间 


工 ] 


|ixi 间 


E 十 ixi 井 


8. 卫 


DD WD -~ 
加 
| 
T 
| 
x* 
让 


# 


a 
1 村 


FE 
站 一 一 
! 上 


其 语法 树 实际 上 与 最 右 推导 相同 。 从 树 上 可 见 , 其 归 约 存在 单个 非 终 结 符 产生 式 的 归 约 ， 


0 TR, ET 


(2) 算 符 优先 分 析 及 其 语法 树 
i 十 ix i 井 
E+ixi# 
E+Txi# 


> co 性 
器 
| 


-TxF# 


E+T # 


5， 卫 


并 


/* 可 归 约 为 任意 名 */ 


这 两 棵 语法 树 不 一 样 ,但 其 轮廓 却 相 似 。 相 对 于 规范 分 析 ,把 算 符 优先 分 析 称 作 非 规范 分 
析 。 这 里 可 归 约 短语 ,不 再 称 之 为 句柄 ,而 称 之 为 最 左 素 短语 。 最 左 素 短语 与 句柄 的 差别 在 于 
前 者 不 存在 非 终结 符 归 约 非 终结 符 ,或 者 说 不 存在 换 名 产生 式 归 约 。 更 确切 地 说 , 素 短语 是 指 
这 样 一 个 短语 : 它 至 少 含有 一 个 终结 符 , 且 除 它 自 身 外 不 再 包含 其 他 素 短语 。 最 左 素 短语 是 指 
句 型 中 最 左边 的 那个 素 短语 。 


3) 通用 算 符 优先 分 析 
假定 我 们 把 文法 的 句 型 ( 括 在 两 个 # 之 间 ) 的 一 般 形 式 写成 : 
## Nial N2as… Nan Na。+i 间 
其 中 ,ai(i==1,…, n) 是 终结 符 ,Ni(i==1,…,n 十 1) 是 可 有 可 无 的 非 终 结 符 。 设 最 左 素 短语 是 
a NiaiNiti, 则 必定 有 : 
ai-1< ai 
ai 荆 8i+1 一 二 ai 
ai >airl 
那么 ,ajNjajt1…aiNiti 一 定 可 归 约 为 某 非 终结 符 。 这 里 的 aa+:…ai 是 文法 产生 式 右 部 的 
相应 终结 符 部 分 ,因为 它们 优先 级 相同 ,可 以 同时 进行 归 约 。 
这 种 素 短语 在 程序 设计 语言 中 经 常 看 到 ,例如 循环 语句 产生 式 
Sfor i:=E step E untilE do S 
当 栈 顶 这 个 素 短 语 形成 时 就 可 进行 归 约 。 这 里 考虑 到 算 符 优先 分 析 不 仅 应 适应 于 双 目 算 符 而 
且 也 应 适应 于 可 归 约 子 串 ( 素 短 语 ) ,为 此 将 5. 2. 1 节 中 直观 算 符 优先 分 析 法 改写 成 下 面 的 通 
用 算 符 优先 分 析 算 法 。 
算法 5.2， 
PROCEDURE 通用 算 符 优先 分 析 ; 
BEGIN 
1. k: 三 1;S(k): 三 '#'; /xxS 为 下 推 栈 ,这 里 称 符号 栈 * / 
2. REPEAT 
3. ”把 下 一 个 输入 符号 读 人 SYM 中 ; 


4. IF S(k)EVr THEN j:=k ELSE j:=k—1; 
5. WHILE SG) >SYM DO /x* 素 短语 归 约 可 能 做 若干 次 */ 
6 BEGIN 
vy REPEAT  ” /* 找 素 短语 的 头 * / 
8 Q:=SG)， 
9. IF SG—DEVr THEN j:=j 一 1ELSE j:=j 一 2 

人 UNTIL SG) 一 Q; 

网 把 SG 十 1)…SCk) 归 约 为 某 个 N; / 关 若 找 不 到 相应 的 产生 式 归 约 ， 


则 出 错 * / 
党 k :一 j 十 1; 
3 SCk) :=N 
4 END OF WHILE:; 
5. IF SG)<SYM OR SG)=SYM THEN 
6 BEGIN k:=k+1;S(k):=SYM END / 关 移 进 */ 
7. ELSE ERROR /* 调 出 错 处 理 程序 */ 
8. UNTIL SYM='#" /识别 成 功 */ 
END; 
上 述 算法 结束 时 ,车 符号 栈 S 呈现 #N, 读 头 下 符号 为 # , 则 表示 分 析 成 功 ; 和 否则, 若 j 志 1 
102 


或 j>1 都 表示 输入 串 有 错 。 在 算法 的 第 11 行 并 没有 指出 应 把 找到 的 最 左 素 短 语 归 约 成 哪 一 
个 非 终结 符 “N?”, 只 要 能 找 出 产生 式 .其 右 部 的 终结 符 与 s(j 一 1)…S(k) 中 终结 符 有 一 一 对 应 
关系 ,在 名 称 相同 位 置 也 相同 时 即 可 进行 归 约 。 至 于 归 约 成 什么 非 终 结 符 是 无 关 紧 要 的 ,这 里 
写作 N。 

[ 例 5.72 下 面 利 用 例 5.6 中 的 文法 和 表 5. 6 的 算 符 优 先 表 , 按 通用 算 符 优先 分 析 的 算法 
分 析 语 句 if b then i else i # 的 过 程 如 下 : 


输入 串 
if b then ielsei # 


b then i else i # 


ifb “= then i elsei# 


让 N then ielsei # | Nb 归 约 


if N then 。 ielsei# 移 进 I 
if N then i - elsei # | 移 进 

if N then N elsei # | N->i 归 约 十 1) 

if N then N else 。 i # | 移 进 
if N then N elsei - 移 进 


5.5 算 符 优先 归 约 的 
过 程 语法 树 


if N then N else N = N-~~i 归 约 


共 | 共 | 共 | 共 | 共 | 共 | 共 | 革 | 共 | 共 | 巷 


归 约 


成 功 


* 关系 指 栈 项 终结 符 与 读 头 下 符号 间 的 关系 ,通过 查 算 符 优先 表 而 知 。 


由 动作 栏 中 自 上 而 下 登记 的 归 约 顺序 可 以 画 出 一 棵 按 归 约 过 程 建立 的 语法 树 , 见 图 5. 5。 
由 该 树 可 见 ,该 归 约 顺序 正 是 按 最 左 素 短 语 归 约 顺序 ( 即 树 上 标的 1) 一 4) 顺 序 ) ,在 树 中 不 存 
在 按 单 非 产生 式 归 约 ,这 是 它 与 规范 归 约 的 主要 区 别 。 

4) 算 符 优先 分 析 的 优 缺 点 

算 符 优 先 分 析 比 规范 归 约 要 快 得 多 ,因为 算 符 优先 分 析 跳 过 了 许多 单 非 产生 式 的 归 约 。 
这 既是 算 符 优先 分 析 的 优点 ,也 是 它 的 缺点 。 因 为 忽略 了 非 终结 符 在 归 约 过 程 中 的 作用 ,所 以 
存在 某 种 危险 性 ,可 能 导致 把 本 来 不 成 句子 的 输入 串 误 认 为 是 句子 ,比如 把 计 E then E 当 作 
条 件 语 句 。 

算 符 优先 文法 适用 范围 比 简单 优先 文法 大 得 多 ,许多 程序 设计 语言 的 文法 都 可 以 用 它 来 
分 析 。 同 时 由 于 它 的 优先 表 构 造 比较 简单 ,甚至 可 以 用 手工 构造 ,所 以 早期 的 编译 程序 常用 它 
作为 语法 分 析 工 具 。 

缺点 是 有 些 文法 不 满足 算 符 优先 文法 的 要 求 ,有 些 必须 改写 .有些 甚至 无 法 改写 。 此 外 ， 
若 终 结 符 数目 多 , 壁 如 n= 二 100, 那 么 优先 表 尺 寸 将 达到 100 X 100 个 元 素 。 事 实 上 ,许多 符号 
对 之 间 不 存在 优先 关系 ,可 以 压缩 ,否则 优先 表 占 用 太 大 的 存储 空间 了 。 
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5.3 优先 函数 
优先 表 的 一 个 缺点 是 占用 太 大 的 存储 空间 ,而 使 用 优先 函数 可 以 克服 这 个 缺点 。 我 们 把 
每 个 终结 符 0 与 一 对 整数 {(0) ,g(0) 联 系 在 一 起 ,其 中 f(0) 为 终结 符 0 在 栈 内 时 的 优先 数 ， 
g(0) 为 终结 符 0( 还 未 进 栈 的 优先 数 ) 的 比较 优先 数 。 
f(0) ,g(0) 的 值 应 满足 如 下 关系 : 
。 若 人 过 0,, 则 f(01) 二 g(0,) /* 前 一 “< ”表示 优先 关系 ,后 一 个 “二 ”表示 
数学 上 比较 关系 * / 
， 若 人 二 0,, 则 了 (61) 二 g(0,) 
。 若 0 之 所, 则 (01) 二 g(0,) 
这 样 ,就 能 把 优先 表 所 需 的 存储 空间 从 nx* n 单元 减少 到 优先 函数 的 2*n 单元 (其 中 n 是 终结 
符 数目 )。 同 时 ,终结 符 之 间 的 比较 从 原先 的 优先 关系 比较 改 为 数学 上 的 大 小 比较 ,方便 了 语 
法 分 析 过 程 。 例 如 ,将 表达 式 文法 G(E) 的 算 符 优先 分 析 表 转换 成 相应 的 优先 函数 表 , 如 图 
5.6 所 示 。 


图 5.6 由 优先 表 构 造 优先 函数 


有 了 优先 函数 表 , 就 可 以 编写 一 个 类 似 于 优先 分 析 的 算法 进行 句 型 识别 (算法 留 作 练习 )。 

下 面 先 讨论 优先 表 与 优先 函数 的 关系 问题 : 

(1) 优先 函数 并 不 等 价 于 优先 表 , 在 优先 表 中 没有 关系 的 终结 符 对 而 存在 优先 函数 。 也 
就 是 说 优先 表 能 发 现 错误 ,用 优先 函数 却 发 现 不 了 错误 。 因 此 ,优先 函数 的 能 力 弱 于 优先 表 。 

(2) 有 些 优 先 表 不 存在 对 应 的 优先 函数 ,例如 下 面 的 优先 关系 : 


就 不 存在 对 应 的 优先 函数 f 和 g。 假 如 存在 f 和 g. 那 就 应 有 
f(a)=g(a) ,f(a)>g(b) ,f(b)=g(a) ,f(b)=g(b) 
从 而 导致 矛盾 结果 : 
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f(a)>g(b)={(b)=g(a)={(a) 

(3) 如 果 存 在 一 对 优先 函数 , 则 存在 无 穷 多 对 优先 函数 。 比 如 在 优先 函数 表 中 ,每 个 元 素 
都 加 上 一 个 常数 后 仍 满足 优先 关系 。 另 外 ,用 不 同 算法 从 优先 表 转 换 为 优先 函数 时 也 可 能 得 
到 不 同 的 结果 。 

从 优先 表 转 换 为 优先 函数 的 算法 很 多 .下面 介 绍 两 个 。 

算法 1: 逐 次 加 1 法。 其 步骤 如 下 : 

(1) 对 所 有 终结 符 a( 包 括 #), 令 f(a) 二 g(a) 二 csc 为 任意 常数 。 

(2) 对 所 有 终结 符 : 

若 ab 而 f(a) 迄 g(b), 则 取 fa):= 王 g(Cb) 十 1; 

车 a 过 bb 而 f(a) 宇 g(b), 则 取 gC(b);: 二 f(a) 十 1; 

车 a 三 b 而 f(a) 关 g(b), 则 取 f(a)==g(b) 二 max({f(a),g(b))。 

(3) 重复 步骤 (2) 直 至 f(a) ,g(b) 不 再 改变 为 止 。 如 果 f(a) 或 g(b) 的 任 一 值 宇 2n 十 cln 为 
终结 符 数目 ) 而 步骤 (2) 还 结束 不 了 ,表示 优先 函数 不 存在 。 

例如 ,由 G(E) 文 法 的 优先 表 构 造 优 先 函 数 的 过 程 (优先 表 见 表 5. 3) 由 如 下 5 步 完 成 。 


步骤 1 置 初 值 , 设 C=1 步骤 2 迁 代 1, 执 行 算法 步骤 (2) 结 果 


步骤 5 与 步骤 4 的 结果 相同 ,迭代 收敛 , 步 又 5 的 结果 即 为 优先 函数 。 
算法 2: Bell 有 向 图 。 
) 对 每 个 终结 符 a( 包 括 ##), 令 其 对 应 两 个 结 点 fa 和 ga, 画 一 张 以 所 有 fa 和 ga 为 结 点 
的 有 向 图 ,如 果 a "二 >b 或 a=b, 就 从 fa 画 一 弧 指 向 gb; 若 a<… b 或 a=b, 则 从 gb 画 一 弧 指 
向 fa; 

(2) 令 f(a) 等 于 结 点 fa 可 达 的 结 点 数 (包括 fa 自身 结 点 ) , 令 g(a) 等 于 结 点 ga 可 达 的 结 
点 数 ( 包 括 ga 自身 结 点 ); 

(3) 检查 构造 出 来 的 f(a) 和 g(a) , 若 与 优先 表 符 合 则 优先 函数 存在 ,否则 不 存在 。 


一 
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例如 ,已 知 GCE) 文 法 的 优先 表 , 构 造 有 向 图 和 优先 函数 如 图 5.7 所 示 。 


图 5.7 Bell 有 向 图 及 相应 优先 函数 


这 个 结果 正 是 图 5.6 的 优先 函数 。 

上 述 算法 构造 出 的 优先 函数 与 优先 表 没 有 矛盾 ,所 以 此 优先 函数 是 正确 的 。 但 两 种 算 
法 得 到 的 优先 函数 表 却 不 同 ,这 也 说 明了 如 果 存 在 一 对 优先 函数 ,就 存在 无 穷 多 对 优先 

由 于 优先 函数 是 在 优先 表 的 基础 上 才能 构造 出 来 ,而 它 的 能 力 又 弱 于 优先 表 , 它 的 唯一 优 
点 是 节省 存 表 的 空间 ,所 以 近来 优先 函数 用 作 语 法 分 析 已 不 多 见 。 


习 题 


5=1 已 知 文法 Gi; 
S—al A |(R) R= 人 T T=»>S, TIS 
请 用 定义 判定 它 是 简单 优先 文法 ,并 构造 简单 优先 表 。 
5-2 说 明 为 什么 文法 Ge : 
A>Bd|Be 
B->~c|cB 
不 是 简单 优先 文法 ,而 产生 相同 语言 的 文法 Gs : 
A—>Bd|Be 
B->~c| Bec 
却 是 简单 优先 文法 。 
5 一 3 试 构造 G; 文法 的 简单 优先 矩阵 ,并 写 出 识别 句子 ccd 和 cce 的 过 程 。 
5-4 已 知 文法 G,: 
S>Wa W—>al Wb| WS 
不 是 简单 优先 文法 ,请 在 不 改变 其 所 定义 语言 的 前 提 下 将 其 修改 成 简单 优先 文法 ,并 构造 简单 
优先 矩阵 。 
5-5 试 为 文法 Gs : 
Z 一 A( ) A—(|AilB) BY>i 
构造 算 符 优先 表 , 并 构造 优先 函数 。 这 里 括号 是 文法 符号 .不 是 元 语言 符号 。 
5 一 6 指出 表达 式 文法 Ge : 
E>E+TIT 下 二 下 到 了 | 下 F->~(E)|i 
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的 句 型 十 Tx*xFxi 二 i 的 所 有 短语 和 素 短语 。 
5-7 已 知 文法 Gi: 
Sal 人 |(T) T—T,S|S 

(1) 计算 各 非 终结 符 的 FIRSTVT 和 LASTVT; 
(2) 构造 算 符 优先 表 ; 

(3) 构造 优先 函数 表 ; 

(4) 按 算法 5. 2 给 出 语句 ((a,a) ,人 )# 的 分 析 过 程 。 
5 一 8 分 别 为 下 面 两 个 优先 矩阵 构造 优先 函数 。 


5-9 试 给 出 文法 Gs 的 算 符 优先 表 , 并 给 出 句子 var i,i:char 的 分 析 过 程 。 


Gos:S—var IDT:TYPE IDT—IDT,i 
IDDT 一:i TYPE-~real| char 
5-10 设 有 文法 Gu : 
Sn Vi 一 ValViV: 
Vo—V,|V;s+V, Vs—)Vi* |( 


(1) 证 明 Vs 十 Vsi( 是 文法 Gu 的 一 个 句 型 并 指出 这 个 句 型 的 所 有 短语 , 素 短语 、 句 柄 ; 
(2) 计算 Gu 各 非 终 结 符 的 FIRSTVT、LASTVT 和 构造 优先 表 。 
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6 LR 分 析 法 及 分 析 程 序 自 动 构 造 


本 章 介 绍 上 下 文 无 关 文法 的 LR 分 析 方法 及 分 析 程 序 的 自动 构造 。LR 系 指 “ 自 左 至 右 扫 
描 , 最 右 推导 的 逆 过 程 ”。 一 般 地 说 ,大 多 数 用 上 下 文 无 关 文 法 所 描述 的 程序 设计 语言 都 可 用 
LR 分 析 器 予以 识别 。LR 分 析 法 与 算 符 优先 分 析 法 或 其 他 的 “ 移 进 一 归 约 ” 技 术 相 比 ,适应 文 
法 范围 更 加 广泛 ,能力 更 强 ,而 识别 效率 并 不 比 它 们 差 , 与 普通 不 带 回溯 的 自 上 而 下 预测 技术 
相 比 也 要 好 一 些 。LR 分 析 法 在 自 左 至 右 扫描 输入 串 时 就 能 发 现 其 中 的 错误 ,并 能 准确 地 指 
出 出 错位 置 ,这 一 点 是 其 他 分 析 法 无 法 比拟 的 。 

这 种 分 析 法 的 一 个 主要 缺点 是 , 若 用 手工 构造 分 析 程 序 , 则 工作 量 太 大 ,而 且 容 易 出 错 。 
因此 ,必须 使 用 自动 产生 这 种 分 析 程序 的 产生 器 。 应 用 这 种 产生 器 ,就 能 自动 产生 一 大 类 上 下 
文 无 关 文法 的 LR 分 析 程 序 。 这 种 产生 器 还 能 对 二 义 文法 或 难 分 析 的 特殊 文法 施加 一 些 限 
制 ,使 之 能 用 LR 分 析 。 本 章 将 讨论 这 样 一 类 产生 器 。 

从 逻辑 上 说 ,LR 分 析 器 包括 两 部 分 :一 个 称 总 控 程 序 ( 语 法 分 析 程 序 ) ,一 个 是 一 张 分 析 
表 。 所 有 LR 分 析 器 的 总 控 程序 都 相同 ,仅仅 是 它们 的 分 析 表 不 同 而 已 。 总 控 程 序 的 作用 是 
查分 析 表 ,并 根据 分 析 表 的 内 容 执行 若干 个 简单 的 动作 ( 见 图 6. 1(b))。 因 为 总 控 程 序 容易 实 
现 , 因 此 常常 把 产生 器 的 任务 看 作 只 是 产生 分 析 表 ,如 图 6. 1(a) 所 示 。 


输入 带 
| 产生 器 “| 广 
文法 4 分 析 表 答 出 天 
(a) 产生 分 析 表 (b) LR 分 析 器 的 工作 


6.1 产生 LR 分析 程序 


一 个 文法 的 LR 分 析 器 常常 对 应 着 若干 种 不 同 的 分 析 表 。 有 些 检 错 能 力 强 一 些 , 有 些 差 
一 些 , 但 所 有 分 析 表 都 恰好 识别 文法 所 产生 的 全 部 语句 。 下 面 讨论 四 种 不 同 分析 表 构造 方法 : 
第 一 种 叫做 LR(0) 分 析 表 构造 法 ,其 分 析 能 力 有 限 ,但 它 是 建立 其 他 LR 分 析 法 的 基础 ,所 以 
要 先 讨论 之 ;第 二 种 叫做 简单 LR( 简 称 SLR) 分 析 表 构 造 法 ,虽然 有 一 些 文法 构造 不 出 SLR 分 
析 表 ,但 这 是 一 种 比较 容易 实现 又 有 使 用 价值 的 方法 ;第 三 种 叫做 规范 LR 分 析 表 构造 法 ,这 
种 方法 构造 的 分 析 表 能 力 最 强 . 能 够 适用 于 一 大 类 文法 ,但 实现 代价 过 高 ,或 者 说 分 析 表 的 尺 
寸 太 大 ;第 四 种 称 作 向 前 看 LR 分 析 表 构造 法 (简称 LALR), 也 是 一 种 常用 的 方法 。 最 后 ,将 
讨论 如 何 使 用 二 义 文法 构造 LR 分 析 器 并 产生 高 效 的 分 析 技 术 。 
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6.1 LR 分析 器 


规范 归 约 的 关键 问题 是 找 句 柄 。 在 一 般 的 “ 移 进 一 归 约 ? 过 程 中 , 当 一 个 貌似 句柄 的 符号 
串 呈 现 于 栈 顶 时 ,有 什么 方法 可 以 确定 它 是 否 为 当前 句 型 的 句柄 呢 ? LR 分 析 法 是 根据 三 方 
面 信息 找 句 柄 的 : 

(1) 历史 : 移 进 、. 归 约 的 历史 情况 已 经 记录 在 下 推 栈 内 ,可 以 查阅 ; 

(2) 展望 :预测 句柄 之 后 可 能 出 现 的 信息 ; 

(3) 现实 : 读 头 下 符号 。 

LR 分 析 法 的 这 种 基本 思想 是 符合 哲理 的 ,是 符合 人 们 思维 习惯 的 ,但 具体 实现 起 来 十 分 
困难 。 问 题 不 在 于 “历史 ”与 “现实 ”, 主 要 是 基于 “历史 ”对 未 来 的 “展望 ”可 能 存在 相当 多 的 可 
能 性 ,造成 在 实际 实现 时 的 困难 。 因 此 ,只 好 使 用 简化 了 的 “展望 "信息, 以便 构造 一 个 可 行 的 
分 析 算 法 。 

一 个 LR 分 析 器 实际 上 是 带 有 下 推 栈 的 确定 的 
有 限 状态 自动 机 。 我 们 把 一 个 “历史 ”与 在 这 个 “ 历 
史 ” 下 的 “展望 ”信息 综合 为 抽象 的 一 个 状态 ,下 推 
栈 用 于 存放 在 对 输入 串 进 行 分 析 的 过 程 中 的 这 些 
状态 。 栈 里 的 每 个 状态 都 概括 了 从 分 析 开 始 到 归 
约 阶段 的 全 部 “历史 ”和 “展望 ”的 信息 ,因此 栈 顶 的 过 
状态 就 可 用 于 决定 当前 动作 。 也 就 是 说 ,LR 分 析 图 6.2 栈 结构 图 
器 的 每 一 步 动 作 可 由 栈 顶 状态 和 读 头 下 符号 所 唯一 决定 。 至 于 栈 顶 状态 为 什么 能 代表 “历史 ” 
与 “展望 ”信息 ,通过 后 面 的 介绍 将 逐渐 能 明白 。 为 了 便于 了 解 栈 顶 状态 对 整个 分 析 过 程 的 作 
用 ,我 们 把 栈 分 为 两 栏 (下 一 章 在 介绍 翻译 时 可 能 改造 成 多 栏 ) :状态 栏 与 符号 栏 ( 见 图 6. 2) 。 
分 析 开 始 时 ,状态 栈 放 Su( 初 态 ) ,符号 栈 放 # ( 栈 底 符 ) , 栈 顶 状态 Su 代表 了 符号 栈 内 符号 串 
XnXn-1…Xi 及 展望 信息 。 符 号 栈 仅 用 于 记录 迄今 移 进 一 归 约 所 得 到 的 文法 符号 ,对 语法 分 
析 并 不 起 作用 。 这 里 给 出 符号 栈 的 内 容 仅仅 是 为 了 加 深 对 分 析 过 程 的 理解 。 

LR 分 析 器 的 核心 是 分 析 表 ,其 格式 如 图 6. 3(a) 所 示 。 这 张 分 析 表 包括 两 部 分 :一 是 “ 动 
作 ”(ACTION) 表 , 另 一 是 “转向 ”(GOTO) 表 ,它们 都 是 二 维 数组 ,其 中 Si 为 状态 ,aiEVr， 
AiEVN, 并 设 XECVrUVN)。 


ACTION GOTO ACTION GOTO 
ai aa d,s a aa AAA2…A。 
S 压缩 | S， 
S， |5 
S, S: 
动作 表 转向 表 动作 表 转向 表 


(a) (b) 
6.3 LR 分 析 表 格式 


ACTIONLS,aj] 表 示 在 当前 状态 S 下 .面临 读 头 下 符号 a 所 应 采取 的 动作 ,该 动作 有 四 种 
可 能 : 移 进 、 归 约 、 出 错 和 接受 。 
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GOTOLS,X]: 若 XEVr, 表 示 在 当前 状态 下 , 读 和 人 a 应 转向 什么 状态 ; 若 XE VN ,表示 当 
前 栈 顶 句柄 归 约 成 X 后 应 转向 什么 状态 。 因 此 ,GOTO[LS,X] 定 义 了 一 个 以 文法 符号 为 字母 
表 的 DFA。 对 终结 符 的 移 进 动 作 与 转向 动作 可 以 合并 在 一 起 填 在 动作 表 中 ,这 样 转 向 表 可 以 
进行 压缩 ,只 保留 非 终结 符 转向 部 分 ,如 图 6. 3(b) 所 示 。 

总 控 程 序 的 动作 根据 当前 栈 顶 状态 S。 和 读 头 下 符号 ai 查 表决 定 : 

(1) 移 进 :把 (Su,ai) 的 下 一 状态 S =GOTO[S。,ai] 连 同 读 头 下 符号 推进 栈 内 , 栈 顶 成 
(CS' ,ai) ,而 读 头 前 进 一 格 。 

(2) 归 约 : 指 用 某 产 生 式 A 一 B 进行 归 约 。 若 B 的 长 度 为 Y, 简 记 为 |B| 王 y, 则 弹出 栈 项 y 
项 ,使 栈 顶 状态 变 为 So_y ,然后 把 (S。_;y.A) 的 下 一 状态 S' 二 GOTO[S。-y,Aj 连 同 非 终 结 符 A 
一 起 推进 栈 内 , 栈 顶 变 成 (S' ,A) 。 读 头 不 动 , 即 不 改变 现行 输入 符号 。 

(3) 接受 :宣布 分 析 成 功 ,退出 总 控 程序 。 

(4) 报错 :报告 输入 串 含 有 错误 ,调用 相应 出 错 程序 处 理 。 

LR 分 析 器 的 总 控 程 序 本 身 很 简单 , 它 按 动作 表 中 填 的 内 容 具体 实施 而 已 。 比 如 , 按 哪 一 
个 产生 式 归 约 , 在 动作 表 中 已 给 出 了 产生 式 编号 ,无需 总 控 程 序 再 去 检索 。 不 管 哪 一 类 分 析 
表 , 总 控 程 序 的 动作 都 一 样 , 以 后 不 再 重复 介绍 。 

例如 , 表 6.1 就 是 下 述 表 达 式 文法 的 一 个 LR 分 析 表 : 

(1) E>E+T 
(2) E>T 
(3) T>T*xF 
(4) T—F 
(5) F>(E) 
(6) Fi 


表 6.1 LR 分析 表 


ACTION( 动 作 ) GOTO( 转 向 ) 


共 ( 


Ss 


表 中 符号 的 含义 是 : 

S 一 一 Shift j 的 缩写 , 指 将 读 和 人 符 a 移 进 栈 内 并 转 到 j 状态 , 栈 顶 变 成 (j ,a); 
ty reduce j 的 缩写 , 指 按 第 j 号 产生 式 归 约 ; 

accept 的 缩写 ,表示 分 析 成 功 ; 

空白 格 一 一 出 错 标 志 , 若 填 上 相应 出 错 处 理 程序 的 编号 , 便 转 相应 程序 处 理 。 
利用 这 张 表 分 析 输 入 串 ix i 十 i 的 LR 动作 过 程 如 下 : 


acc 


ri 归 约 
mr 归 约 
移 进 
移 进 
rs 归 约 
nm 归 约 
rz 归 约 
移 进 
移 进 
ri 归 约 
r 归 约 
nn 归 约 


LR 分 析 器 的 动作 情况 也 可 以 描述 成 机 器 内 部 的 格局 间 转 换 。 其 格局 用 三 元 式 表示 为 
(状态 栈 ,已 归 约 的 符号 栈 , 待 继续 分 析 的 输入 串 ) ,其 初始 格局 为 : 
(So , 井 ,aiaz…an 井 ) 
若 当 前 格局 假定 为 : 
(SoS1…S, , # Xi XX, ,aiaiti'*an#) 
因为 分 析 器 的 动作 是 由 ACTION(Su ,ai) 所 规定 的 , 若 ACTION(S。 ,a;) 二 Shift i,i 表示 
Si 状态 , 则 下 一 格局 应 变 为 : 
(SS SaSi ,并 XIXs…Xaaiyaittl an 划 ) 
若 ACTION(Su ,ai) 王 reduce j, 这 表示 按 第 j 号 产生 式 A 一 B 归 约 , 设 |8|==Y,GOTO 
(Ss-:， 人 A) 三 S, 则 下 一 格局 应 为 : 
(SoS Sa 1S, HX XK, Asaiatti…an 划 ) 
车 ACTION(S ,# ) 二 acc, 表 示 接 受 。 这 时 格局 不 变 , 应 是 : 
[本 
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其 中 ,E 为 文法 开始 符号 , 栈 内 只 剩 有 两 个 状态 Su ,Si 。 

从 上 面 的 讨论 可 了 解 到 LR 分 析 表 的 重要 性 ,如 果 某 一 文法 能 够 构造 一 张 分 析 表 ,使 得 表 
中 每 一 元 素 至 多 只 有 一 种 明确 动作 , 则 该 文法 称 作 LR 文法 。 并 非 所 有 CFG 文法 都 是 LR 文 
法 ,但 对 于 多 数 程序 设计 语言 来 说 ,一 般 都 可 以 用 LR 文法 描述 。 

LR 分 析 法 对 文法 的 要 求 不 像 自 上 而 下 的 LL(1) 分 析 法 要 求 那么 严格 ,后 者 认为 看 到 了 
句柄 的 首 符 就 认为 看 准 了 该 用 哪 一 个 产生 式 进 行 推导 ,所 以 要 求 每 个 非 终结 符 产 生 式 的 所 有 
候选 式 的 首 符 集 均 不 相交 ,而 LR 分 析 器 只 有 在 看 到 整个 句柄 之 后 才 认为 看 准 了 归 约 方向 。 
因此 ,LR 分 析 法 适应 的 文法 范围 要 广 一 些 。 


6.2 LR(0) 项 目 集 族 和 LR(0) 分 析 表 的 构造 


首先 讨论 一 种 只 根据 “历史 ”信息 而 不 考虑 “展望 "信息 的 状态 。 根 据 这 个 状态 就 能 用 于 识 
别 呈现 于 栈 顶 的 句柄 ,这 是 构造 最 简单 的 分 析 表 的 基本 思想 。 其 基本 策略 是 构造 文法 G 的 一 
个 有 限 自动 机 , 它 能 识别 G 中 所 有 活 前 级 。 

定义 :规范 归 约 的 句 型 中 ,不 含有 句柄 以 后 任何 符号 的 前 级 称 作 活 前 级 , 它 有 两 种 情况 : 

(1) 归 态 活 前 级 : 活 前 级 的 尾部 正好 是 句柄 之 尾 , 这 时 可 以 进行 归 约 。 当 然 归 约 之 后 又 成 
了 另 一 句 型 的 活 前 级 。 

(2) 非 归 态 活 前 级 :句柄 尚未 形成 ,需要 继续 移 进 若干 符号 之 后 才能 形成 句柄 。 

由 文法 G 如 何 构 造 一 个 识别 所 有 活 前 级 的 有 限 自动 机 呢 ? 我 们 知道 产生 式 右 部 的 符号 
串 就 是 句柄 。 若 这 些 符号 串 都 已 进 栈 , 就 表示 它 已 处 于 归 态 活 前 组 ; 若 只 有 部 分 进 栈 , 则 表示 
它 处 于 非 归 态 活 前 级 。 为 了 记 住 活 前 级 有 多 少 部 分 已 经 进 栈 ,当然 可 为 每 个 产生 式 构 造 一 个 
自动 机 ,由 它 的 状态 来 记 住 当前 情况 ,这 里 我 们 把 自动 机 的 “状态 ” 男 取 一 个 名 叫 “ 项 目 ”。 这 些 
自动 机 的 全 体 便 是 识别 所 有 活 前 级 的 有 限 自动 机 。 

文法 G 的 每 一 个 产生 式 右 部 添加 一 个 圆 点 , 称 为 G 的 一 个 LR(0) 项 目 ( 简 称 项 目 ) ,添加 
位 置 不 同 ,叫做 不 同 项 目 。 例 如 ,A 一 XYZ 产生 式 对 应 有 四 个 项 目 : 

(1) A 一 。 XYZ, 预 期 要 归 约 的 句柄 是 XYZ, 但 都 还 未 进 栈 ; 

(2) A 一 X。YZ, 预 期 要 归 约 的 句柄 是 XYZ, 但 仅 X 进 栈 ; 

(3) A 一 XY，。Z, 预 期 要 归 约 的 句柄 是 XYZ, 但 仅 XY 进 栈 ; 

(4) A 一 XYZ， ,已 处 于 归 态 活 前 级 ,XYZ 可 进行 归 约 。 

最 后 一 个 项 目 也 称 归 约 项 目 。 圆 点 可 以 理解 为 栈 内 栈 外 的 分 界线 。 若 产生 式 右 部 字符 串 
的 长 度 为 n, 则 可 分 解 为 n 十 1 个 项 目 , 请 注意 ,产生 式 A>e 只 有 一 个 项 目 A 一 

由 这 些 项 目 如 何 构成 识别 文法 活 前 缀 的 NFA? 构造 方法 如 下 : 

(1) 将 文法 进行 拓 广 ,保证 文法 开始 符号 不 出 现在 任何 产生 式 右 部 , 即 增 加 产生 式 S'S。 
其 中 S 为 原文 法 的 开始 符号 ,S 为 拓 广 后 的 开始 符号 ,并 令 S 一 。S 作为 初 态 项 目 ; 

(2) 凡 圆 点 在 串 最 右边 的 项 目 称 作 终 态 项 目 或 称 归 约 项 目 ,而 S -~S .项 目 称 作 接 受 
项 目 ; 

(3) 设 项 目 i 为 X 一 X1X,…X;-1。X;…X。 ,项目 j 为 X 一 Xi X,…X;。X;t1…X。, 则 从 项 目 i 
画 一 弧 线 射 向 j ,其 标记 写作 Xi ,XiE(CVxUVr), 若 XiEVr 称 作 移 进 , 若 X;€ Vs 称 作 待 约 ; 

(4) 若 项 目 i 为 X>a。AB. 其 中 AEVN, 则 从 ii 项目 画 s 弧 射 向 所 有 A 一 。7 的 项 目 ,YE€ 

和 


(Vn UVr)*, 
例如 ,文法 G6.1( 已 拓 广 ): 


SB 
E>aAl|bB 
A>cAld 
B—>cBld 

这 个 文法 的 项 目 有 : 
1. S—>.E 10. A 一 d。 
2, S'>Es 11. E> . bB 
3. E>-saA 12: E>b.B 
4. E>a. A 13. E>bB。 
5. E>aA. 14. B—> .cB 
6. A .cA 15; B-»e*B 
7. A—c°*。 A 16. BcB* 
8. A 一 cA。 | 
9. A 一 "d Ll8,. Bds 


按照 上 述 构 造 NFA 的 方法 ,构造 识别 活 前 级 的 NFA 如 图 6.4 所 示 。 


6.4 识别 活 前 缀 的 NFA 


这 是 一 个 包含 有 *s 串 的 NFA ,使 用 第 3 章 中 介绍 的 子 集 法 确定 化 方法 能 将 它 确定 化 ,使 
之 成 为 一 个 以 项 目 集 为 状态 的 DFA. 这 个 DFA 就 是 建立 LR 分 析 算 法 的 基础 。 图 6.5 是 图 
6.4 相应 的 DFA。 

对 DFA 状态 图 作 四 点 说 明 : 

(1) 每 个 DFA 的 状态 是 一 个 项 目 集 , 称 作 LR(0) 项 目 集 , 整 个 状态 集 称 LR(0) 项 目 集 规 
范 族 ; 

(2) 在 DFA 的 任意 项 目 集 内 ,每 个 项 目 是 “等 价 ” 的 ,这 里 “等 价 ” 的 含义 是 指 从 期 待 归 约 
的 角度 来 看 是 相同 的 ; 
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(3) 有 一 个 唯一 的 初 态 和 一 个 唯一 的 接受 态 , 但 有 若干 个 归 约 态 ,表示 有 若干 种 活 前 组 的 
识别 状态 ; 
(4) 状态 反映 了 识别 句柄 的 情况 , 即 句柄 的 多 大 部 分 已 进 栈 , 即 知道 了 历史 情况 。 


6.5 识别 活 前 缀 的 DFA 


6.2.1 LR(0) 项 目 集 规范 族 的 构造 


由 上 面 的 介绍 可 知 ,车 用 手工 来 构造 文法 的 项 目 集 规范 族 是 很 困难 的 ,这 里 介绍 如 何 由 机 
带 自 动 构造 它 。 下 面 分 四 点 介绍 : 

(1) 拓 广 文法 ,增加 S -~S 产生 式 , 使 文法 的 开始 符号 不 出 现在 任何 产生 式 右 部 ,从 而 保 
证 有 唯一 的 接受 项 目 。 即 使 原 开 始 符号 S 不 出 现在 任何 产生 式 右 部 ,但 为 了 统一 起 见 仍 增加 
S' 一 S 产 生 式 。 

(2) 设 I 是 拓 广 文法 G' 的 一 个 项 目 集 ,定义 和 构造 1 的 闭 包 CLOSURE(ID 如下: 

a. 1 的 任何 项 目 都 属于 CLOSURE(D; 

b. 若 A>a，BB 属于 CLOSURE(1),BE Va, 那么 对 任何 关于 B 的 产生 式 By, 项 目 
B 一 ，y 也 属于 CLOSURE(D; 

c. 重复 执行 步骤 b, 直 至 CLOSURE( 了 DD) 不 再 扩大 为 止 。 

(3) 执行 状态 转换 函数 GO。GO(I,X) 定 义 为 CLOSURE(J) ,其 中 IJ 都 是 项 目 集 ,XE 
(VnUVzr)。 而 且 J={ 任 何 形 如 A 一 aX。8B 的 项 目 | A 一 a。 XBET) ,其 含义 是 对 于 任意 项 目 集 
I, 转换 到 项 目 集 ], 这 是 由 于 I 中 有 A 一 a* XB 项 目 ,J] 中 有 A 一 aX. B 项 目的 缘故 ,表示 识别 
活 前 级 又 移 进 一 个 符号 X。 

(4) 构造 LR(0) 项 目 集 规范 族 的 算法 如 下 : 

1. PROCEDURE ITEMSETS-LR(0) 
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2 BEGIN 
3 C:={CLOSURE({S'— . S})} /* 初 态 项 目 集 */ 
4 REPEAT 
5 FOR C 中 每 个 项 目 集 I 和 G' 中 每 个 文法 符号 X DO 
6. IF GO(I,X) 非 空 旦 不 属于 C THEN 
把 GOGI,X) 加 入 C 中 
8 UNTIL C 不 再 扩大 为 止 
9 END; 

其 中 ,C 是 集合 ,存放 全 部 的 项 目 集 。 第 3 行 是 置 C 的 初 态 , 它 仅 包含 第 一 个 项 目 集 (由 初始 项 
目 通 过 求 闭 包 获 得 )。 算 法 是 迭代 算法 , 像 滚雪球 一 样 ,每 经 过 一 次 FOR 语句 , 便 扩 大 C 中 项 
目 集 数 ,直至 项 目 集 数 不 变 为 止 。 

由 这 个 项 目 集 规 范 族 C 中 各 个 状态 及 状态 转换 函数 GO, 可 构造 一 张 识别 活 前 级 的 DFA 
图 。 读 者 可 以 利用 上 面 文法 作为 例子 , 按 算法 重 做 一 遍 , 其 结果 与 手工 构造 的 完全 相同 。 

上 述 构造 项 目 集 族 的 算法 是 从 I 开始 , 按 该 项 目 集 内 的 项 目 顺序 依次 求 出 所 有 后 继 项 目 
集 。 例 如 ,从 IT 求 出 的 后 继 项 目 集 , 其 顺序 是 IE、 LI 和 1s ,然后 再 对 新 求 出 的 项 目 集 重 复 上 述 
做 法 。 这 样 ,一 层 一 层 往 下 生成 所 有 项 目 集 的 方法 避免 了 项 目 集 的 遗漏 。 


6.2.2 LR(0) 分 析 表 的 构造 算法 


我 们 从 已 求 得 的 项 目 集 规范 族 C 和 转换 函数 GO 来 构造 LR 分 析 表 。 下 面 是 构造 LR(0) 
分 析 表 的 算法 (算法 6. 1) : 

设 C 一 (TD ,…,E) ,以 各 项 目 集 I.(k 二 0,….n) 的 kk 作为 状态 序号 ,并 以 包含 S 一 ，S 
的 项 目 集 作为 初始 状态 ,同时 将 G' 文 法 的 产生 式 进行 编号 ,然后 按 下 列 步骤 填写 ACTION 表 
和 GOTO 表 : 

(1) 车 项 目 A 一 a* aBET 状态 且 GO(I ,a) 二 1 ,a 为 终结 符 , 则 置 ACTION[k,a]==S;, 意 
思 是 移 进 a 并 转向 状态 ; 

(2) 若 项 目 A 一 a。 EI, 则 对 任何 终结 符 a( 包 括 语句 结束 符 # ) 置 ACTION[k,a]= 
reduce j , 简 记 作 n ,其 中 j 为 产生 式 A>a 的 编号 ; 

(3) 若 项 目 S 一 S .ER , 则 置 ACTION[k,#]=accept, 表 示 识 别 语句 成 功 , 简 记 
为 'ace'; 

(4) 若 GO(It,A)=I,A 是 非 终结 符 , 则 置 GOTOLk,Aj]=j; 

(5) 分 析 表 中 凡 不 能 用 步骤 (1) 至 (4) 填 人 信息 的 空白 项 , 均 置 上 报错 标志 。 

定义 : 若 文法 G 按 算 法 6. 1 构造 出 来 的 分 析 表 不 包含 多 重 定义 ( 即 每 个 人 口 都 是 唯一 
的 ), 则 该 文法 G 是 LR(0) 的 。 

显然 ,LR(0) 文 法 的 每 个 项 目 集 中 不 包含 任何 冲突 项 目 : 既 不 能 有 移 进 一 归 约 冲突 也 不 能 
有 归 约 一 归 约 冲突 。LR(0) 文 法 的 能 力 很 弱 , 甚 至 连 表 达 式 文法 也 不 属于 LR(0) 文 法 ,所 以 没 
有 实用 价值 。 这 里 讨论 它 不 过 是 利用 它 的 构造 算法 来 构造 其 他 LR 分 析 表 。 

例如 ,文法 G6. 1 就 是 一 个 LR(0) 文 法 。 假 定 对 这 个 文法 的 各 个 产生 式 给 予 编号 并 写成 : 

0. S'‘>E 4. A—>d 
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1 一 aA 5. B>cB 
2 EhbB 6. Bd 
3. A—cA 
那么 , 按 LR(0) 分 析 表 构造 算法 填写 这 个 文法 的 LR(0) 分 析 表 ,如 表 6.2 所 示 。 
表 6.2 LR(0) 分 析 表 


ACTION GOTO 


旋 A 


如 上 所 述 ,下 推 栈 栈 顶 状态 实质 上 是 DFA 的 一 个 状态 , 它 反映 了 识别 活 前 组 的 进程 ,反映 
了 寻找 句柄 的 历史 情况 , 即 句 柄 有 多 少 部 分 已 进 栈 ,而 不 必 到 栈 里 去 找 过 去 的 移 进 一 归 约 历 
史 。 这 种 下 推 自动 机 的 分 析 过 程 实际 上 可 看 作 是 有 限 自动 机 与 下 推 栈 结合 的 过 程 。 有 限 自动 
机 表示 分 析 活 前 级 的 过 程 ,而 下 推 栈 是 记 住 已 分 析 的 历史 情况 。 这 也 说 明了 下 推 自动 机 的 能 
力 比 有 限 自动 机 能 力 强 的 原因 。 

该 下 推 机 做 归 约 时 与 当前 读 头 下 符号 无 关 , 因 为 它 对 任何 符号 都 采取 归 约 动作 。 也 就 是 
说 , 它 甚 至 连 现实 情况 都 不 看 ,只 赁 历史 情况 办 事 , 由 于 这 个 原因 LR(0) 文 法 的 能 力 很 弱 。 


6.3 SLR 分 析 表 的 构造 

LR(0) 文 法 能 力 弱 的 原因 是 归 约 时 只 考虑 历史 信息 , 连 一 点 现实 情况 都 不 看 , 犯 了 经 验 主 
义 错误 。SLR 是 LR(0) 的 一 种 改进 , 它 在 归 约 时 除了 考虑 历史 情况 外 还 考虑 了 点 现实 。 

设 文法 G 的 LR(0) 项 目 集 规范 族 中 含有 如 下 一 个 项 目 集 (状态 ): 


I={X—>6°. bB 移 进项 目 
A>a: 归 约 项 目 
B>a*} 归 约 项 目 


这 三 个 项 目 告诉 我 们 应 做 的 动作 各 不 相同 ,互相 冲突 。 按 照 6. 1 算法 ,第 一 个 项 目 告诉 
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我 们 应 该 把 读 头 下 符号 b 移 进 ,第 二 个 项 目 告诉 我 们 应 把 栈 顶 的 归 约 为 A, 第 三 个 项 目 则 
说 应 把 a 归 约 为 B, 即 出 现 了 移 进 一 归 约 冲突 和 归 约 一 归 约 冲突 ,所 以 该 文法 G 肯定 不 是 
LR(0) 文 法 。 

下 面 依次 考察 归 约 一 归 约 冲突 以 及 移 进 一 归 约 冲突 如 何 消除 。 若 栈 顶 已 形成 句柄 a, 而 
读 头 下 符号 为 a,a€ Follow(A) 而 a 儿 Follow(B), 显 然 将 a 归 约 成 A 的 话 分 析 可 以 继续 ; 相 
反 , 若 a 儿 Follow(A) 而 a€ Follow(B) ,应 将 a 归 约 为 B。 若 读 头 下 符号 a& Follow(A) 晶 a 
Follow(B) , 而 a 二 b, 则 应 该 做 移 进 。 这 样 , 一 个 有 冲突 的 项 目 集 ,根据 读 头 下 符号 不 同 各 得 其 
所 , 变 得 没有 冲突 了 。 

一 般 而 言 ,对 于 任何 形 如 1 二 {X 一 8，bB,A 一 a，,B 一 a，} 的 LR(0) 项 目 集 , 若 
Follow(A) 门 Follow(B) 王 多 上 且 b 代 Follow(A),b 人 Follow(B) , 则 可 以 根据 当前 读 头 下 符号 a 
来 消除 冲突 。 即 在 构造 LR 分 析 表 的 算法 中 作 如 下 改变 : 

(1) 若 当前 输入 符 a=b, 做 移 进 ; 

(2) 若 当 前 输入 符 aE Follow(A) , 按 A>a 产生 式 归 约 ; 

(3) 若 当前 输入 符 aE Follow(B) , 按 B>a 产生 式 归 约 ; 

(4) 其 他 ,报错 。 

构造 SLR 分 析 表 的 算法 (算法 6.2) 如 下 : 

设 C={l ,0 ,5) ,以 各 项 目 集 KGk=0,1.…,n) 的 k 作为 状态 ,并 以 包含 S 一。S 的 
项 目 集 为 初 态 , 同 时 将 产生 式 进行 编号 ,然后 按 下 列 步骤 填写 ACTION 表 和 GOTO 表 : 

(1) 车 项 目 A 一 a aBEl 且 GO(Cl,a)=I,a 为 终结 符 , 则 置 ACTION[k,a]=Si ,意思 是 
移 进 a 并 转向 j 状态 。 

(2) 若 项 目 A 一 a。 EK, 则 对 任何 终结 符 a€E Follow(A) , 置 ACTION[k,a]=n ,其 中 j 为 
A>a 产生 式 的 编号 ; 

(3) 车 项 目 SS。E, 则 置 ACTION[k,#]=acc; 

(4) 车 GO(L,A)=1,AEVy, 则 置 GOTO[k,A]=j; 

(5) 分 析 表 中 凡 不 能 用 (1) 至 (4) 步 填写 的 空白 项 , 均 置 报错 标志 。 

定义 : 若 文法 G 按 算法 6. 2 构造 出 来 的 分 析 表 不 包含 多 重 定义 ( 即 每 个 人口 都 是 唯一 


的 ), 则 称 该 文法 G 是 SLR 的 。 
[ 例 6. 1] 试 构造 表达 式 文法 G(E) 的 SLR 分 析 表 。 
G(EY: 0. .SSE 4. T—>F 
1. E>E+T 5. F>(E) 
2. E>T 6. F—i 
3. T>TxF 


解 :按照 求 LR(0) 项 目 集 规范 族 的 算法 , 求 得 G(E) 文 法 的 项 目 集 族 如 图 6.6 所 示 。 

从 项 目 集 族 可 看 出 ,L,I ,I 三 个 项 目 集 中 皆 存 在 移 进 与 归 约 项 目 冲突 。 它 们 能 否 通过 求 
随 符 (Follow) 办 法 解决 这 种 冲突 呢 ? 1 中 的 S 一 E， 是 接受 项 目 , 因 此 了 中 的 冲突 实际 上 是 
“ 移 进 一 接受 冲突。 根据 SLR 办 法 , 遇 * 十 ?做 移 进 , 遇 * 井 ”做 接受 ,无 冲突 ;E 的 Follow(E) 一 
{# ,十 ,)), 所 以 当 输 入 符 为 *#”,“ 十 ”,“)” 时 按 产生 式 E>T 归 约 , 输 入 符 为 ** ”时 做 移 进 ， 
也 无 冲突 。hs 的 情况 同 了 ,也 无 冲突 。 可 见 ,车 按 算法 6. 2 构造 出 的 SLR 分 析 表 肯定 不 存在 
重 定义 项 , 它 构造 出 的 分 析 表 见 表 6. 1 。 
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图 6.6 G(E) 的 LR(0) 项 目 集 族 
[ 例 6. 2] 一 个 非 SLR 文法 的 例子 。 


GE 于 S=S Me 
2. S>L=R 5 Li 
SR 6. R=L 


解 : 先 求 文法 G(Ex) 的 项 目 集 规范 族 , 如 图 6.7 所 示 。 总 共有 了 I…1 共 10 个 项 目 集 , 其 中 
L 存在 移 进 与 归 约 项 目 冲 突 , 它 能 否 用 SLR 办 法 加 以 消除 呢 ? 其 中 第 一 个 项 目 S>L.， =R， 
面临 *= 二 ”时 做 移 进 , 即 有 ACTION[L ,=]=Se; 第 二 个 项 目 R 一 L 为 归 约 项 目 ,由 于 
Follow(R) 王 {# , 王 ) ,所 以 应 有 ACTION[l ,=]=r ,用 “R 习 L” 归 约 。 因 此 , 当 状 态 2 面临 
输入 符号 “=” 时 ,存在 移 进 一 归 约 冲突 ,所 以 G(Ex) 文 法 不 是 SLR 文法 。 按 算法 6. 2 构造 的 
SLR 分 析 表 见 表 6. 3。 


6.7 文法 G(Ex) 的 SLR 项 目 集 族 
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表 6.3 G(Ex) 的 SLR 分 析 表 


ACTION GOTO 


由 图 可 见 ,ACTION[l: ,= 二] 二 Ss /rs ,有 多 重信 口 , 所 以 G(Ex) 文 法 不 是 SLR 文法 。 

请 注意 , 若 在 项 目 集中 存在 A 习 。 项目, 则 不 应 该 做 GO 函数 转向 到 其 他 项 目 集 ,因为 
A 阅 。e 项 目 与 A>e， 项 目 是 同一 项 目 , 都 是 A 一 ， 项 目 , 应 该 是 归 约 项 目 。 

例如 ,车 有 文法 G: 

S>AaAb|BbBa.,A—>e,B—>e 

将 文法 拓 广 并 求 初 态 项 目 集 , 有 如 图 6. 8 所 示 形 式 。 

显然 ,A 一 。,B-~~“。 是 归 约 项 目 ,不 存在 求 后 继 项 目 问题 。 

二 义 文法 决 不 是 LR 文法 ,这 是 一 条 定理 。 但 G(Ex) 文 法 不 
是 二 义 文法 ,为 什么 也 不 是 SLR 文法 呢 ? 关键 在 于 SLR 分 析 法 
未 包含 足够 的 “展望 ”信息 ,因此 当 状 态 2 面临 “= 时 未 能 用 展望 
信息 来 决定 是 做 “ 移 进 ?还 是 “ 归 约 ”。 


图 6.8 文法 G 的 初 态 项 目 集 


6.4 规范 LR 分 析 表 的 构造 


在 构造 SLR 分 析 表 的 方法 中 ,车 项 目 集 I 含有 A>a， ,那么 在 状态 k 时 ,只 要 面临 输入 
符号 aE Follow(A) ,就 确定 采用 A>a 产生 式 进行 归 约 。 但 是 , 某 种 情况 下 , 当 状态 k 呈现 于 
栈 顶 时 , 栈 里 的 符号 串 所 构成 的 活 前 缀 Ba 未 必 人 允许 把 归 约 为 A, 因 为 可 能 没有 一 个 规范 句 
型 含有 前 级 BAa。 所 以 ,在 这 种 情况 下 ,用 A>a 产生 式 进行 归 约 未 必 有 效 。 

例如 ,再 来 看 文法 G(Ex) 的 项 目 集 1, 当 状态 2 呈现 于 栈 顶 且 面 临 输入 符号 “= 二” 时, 按 
SLR 方法 可 以 做 归 约 ,但 由 于 该 文法 根本 就 不 存在 以 “R=” 为 活 前 级 的 句 型 ,因此 不 能 用 R 一 
L 产生 式 进行 归 约 。 这 样 , 仅 保留 ACTION[L ,= 二]==S6 ;不 再 出 现 冲 突 , 而 把 项 目 集 I 按 R 一 
LL 产生 式 的 归 约 看 作 无 效 归 约 。 

从 这 里 我 们 得 到 启发 :并 非 随 符 都 出 现在 规范 句 型 中 。 为 此 ,对 每 个 LR(0) 项 目 添加 展 
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望 信息 , 即 添加 句柄 之 后 可 能 跟 的 终结 符 , 因 为 这 些 终结 符 确 实 是 规范 句 型 中 跟 在 句柄 之 
后 的 。 

定义 : 形 如 (A 一 a…B,a) 的 二 元 式 称 为 LR(1) 项 目 。 其 中 ,A 一 ap 是 文法 的 一 个 产生 式 ， 
aE Vir , 称 作 搜索 符 , 可 见 LR(1) 的 项 目 是 对 LR(0) 项 [目的 分 型 ， 若 文法 中 终结 符 的 数目 为 n， 
则 每 个 LR(0) 项 目 可 分 裂 成 n 个 LR(1) 项 目 。 这 个 二 元 式 (A 一 a* B,a) 的 含义 是 :预期 当 栈 
顶 句 柄 aB 形成 后 ,在 读 头 下 读 到 a, 而 当前 a 在 栈 内 ,B 还 未 入 栈 , 即 它 展望 了 句柄 以 后 1 个 符 
号 。 这 就 是 LR(1) 文 法 的 (1) 之 来 源 。 同 样 道理 ,LR(k) 即 表示 展望 句柄 之 后 kk 个 符号 。 对 于 
多 数 程序 设计 语言 ,向 前 展望 1 个 符号 就 足以 决定 归 约 与 否 , 所 以 只 研究 LR(1)。 

在 LR(1) 项 目 中 有 效 的 项 目 并 不 多 。 

定义 :车 存在 规范 推导 S' 一 SAw 一 apgw, 其 中 6a 称 规范 句 型 gapo 的 活 前 级 ( 记 作 y) ,a€ 
FIRST(w) , 则 LR(1) 项 目 (A>a，B,a) 对 于 活 前 级 Y 是 有 效 的。 如 果 b&F FIRST(w), 即 使 bE 
Follow(A) ,项目 (A>a*B,b) 也 是 无 效 的 。 规 范 LR 分 析 法 仅 考虑 有 效 的 LR(1) 项 目 。 


6.4.1 构造 LR(1) 项 目 集 规范 族 的 算法 


构造 LR(1) 项 目 集 族 的 算法 本 质 上 和 构造 LR(0) 项 目 集 族 的 算法 是 一 样 的 , 先 介 绍 两 个 
函数 :CLOSURE 和 GO。 

(1) 函数 CLOSURE(T) 一 1 的 项 目 集 。 

@OI 的 任何 项 目 都 属于 CLOSURE(D; 

@ 若 项 目 (A~a。BpB,a) 属 于 CLOSURE(D ,B-~7y 是 一 个 产生 式 ， FIRST(Ba) 中 

每 个 终结 符 b, 如 果 (B 一 ，y,b) 原 来 不 在 CLOSURE(D 中 , 则 把 它 加 进 

@@ 重 复 步骤 @ ,直至 CLOSURE( 了 DD) 不 再 扩大 为 止 。 

因为 (A 一 a* BB,a) 属 于 CLOSURE(D ,那么 (B 一 ，Y,b) 当然 也 属于 CLOSURE(D ,其 
中 b 必定 是 跟 在 B 后 面 的 终结 符 , 即 bE FIRST(Ba) , 若 B=s, 则 b=a。 

(2) GO 函数 。 

令 I 是 一 个 项 目 集 ,X 是 一 个 文法 符号 ,函数 GO(I,X) 定 义 为 : 

GO(I,X)=CLOSURE(J) 

其 中 ,J= {任何 形 如 (A 一 aX，B.a) 的 项 目 | (A 一 a XB,a) El1)。 

可 见 在 执行 转换 函数 GO 时 ,搜索 符 并 不 改变 。 

(3) 构造 拓 广 文法 G' 的 LR(1) 项 目 集 族 C 的 算法 如 下 : 

PROCEDURE ITEMSETIR(1) 


BEGIN 
C:={CLOSURE({(S'—> .S,#)})}; 
REPEAT 


FOR C 中 的 每 个 项 目 集 1 和 G' 的 每 个 文法 符号 X DO 
IF GO(I,X) 非 空 且 不 属于 C THEN 把 GO(I,X) 加 入 C 中 
UNTIL C 不 再 扩大 为 止 
END; 
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例如 , 仍 以 GCEx) 文 法 为 例 , 构 造 其 LR(1) 项 目 集 族 。 初 态 项 目 集 ,从 (S 一 。S,#) 项 
目 开 始 求 闭 包 可 得 图 6.9 所 示 的 初 态 项 目 集 : 


I, 初 态 IL, 初 态 

S 一 . S 一 。， S， # 
S 一 ， 网 S— * L=R, # 
SR 简化 为 、| s_ .Rg 
L 一 ， L 一 ，*R，=|# 
L 一 …i L 一 。i，=| 
R 一 ， R 一 .L,# 
L—* 

L 一 。ji， 


图 6.9 初 态 项 目 集 
该 项 目 集 的 项 目 数 只 比 LR(0) 项 目 集 的 项 目 数 多 2 个 ,可 见 有 效 的 LR(1) 项 目 数 增加 并 
不 太 多 。 
接着 利用 GO 函数 对 该 项 目 集 内 的 各 项 目 求 后 继 项 目 集 ,然后 再 对 新 求 的 项 目 集 重复 上 
述 过 程 ,直至 项 目 集 不 再 增加 为 止 。 最 后 可 得 图 6. 10 所 示 的 LR(1) 项 目 集 族 。 


S| 1: si S.,# 


6.10 G(Ex) 的 LR(1) 项 目 集 族 


6. 4.2 构造 LR(1) 分 析 表 的 算法 


下 面 是 构造 LR(1) 分 析 表 的 算法 (算法 6. 3): 
设 C={1 ,0 ,…,E)}, 令 每 个 项 目 集 玉 的 下 标 k 为 分 析 表 中 的 状态 ,含有 (S 一 。S,# ) 项 
目的 状态 为 分 析 表 初 态 ,然后 按 下 列 步骤 填 ACTION 和 GOTO 表 : 
(1) 若 项 目 (A>a* aB,b) 属 于 I 且 GO(l,a)=Ti,aEVr, 则 置 ACTION[k,a] 为 Si , 意 
思 是 把 a 移 进 栈 并 转向 j 状态 ; 
(2) 若 项 目 (A—>a* ,a) 属 于 二 , 则 置 ACTION[k,a] 为 5, 按 第 j 号 产生 式 归 约 ,其 中 j 为 
i 


A 一 a 产生 式 的 编号 ; 

(3) 车 项 目 (S' 一 S，。,#) 属 于 I, 则 置 ACTION[Kk,#] 王 acc, 意 思 为 接受 ; 

(4) 车 GO ,A)== 上 , 则 置 GOTO[k,A]=j; 

(5) 分 析 表 中 凡 不 能 用 步骤 (1) 至 (4) 填 写 的 空白 项 , 均 置 报错 标志 。 

定义 : 若 文法 G' 按 算法 6. 3 构造 出 来 的 分 析 表 不 存在 多 重 定义 项 , 则 称 文法 G' 是 LR 
(1) 的 。 

例如 ,文法 G(Ex) 的 规范 LR(1) 分 析 表 如 表 6. 4 所 示 。 


表 6.4 G(Ex) 的 LR(1) 分 析 表 


ACTION GOTO 


关 


S, 


每 个 SLR 文法 都 是 LR(1) 文 法 ,相反 的 并 不 一 定 成 立 。 一 个 SLR 文法 的 规范 LR 分 析 
器 比 其 SLR 分 析 表 含有 更 多 状态 。 文 法 G(Ex) 若 按 SLR 方法 构造 只 有 10 个 状态 , 按 LR(1) 
构造 有 14 个 状态 。 在 严重 情况 下 ,状态 数 可 能 呈 几 倍增 加 ,因此 必须 找 一 种 更 合适 的 LR 分 
析 法 。 


6.5 LALR 分 析 表 构造 


LR(1) 分 析 法 的 能 力 较 强 ,但 它 构造 的 分 析 表 尺 寸 比 较 大 ,为 此 提出 一 种 简化 型 的 具有 预 
测 能 力 (Lookahead) 的 LR(1) 分 析 方 法 , 称 作 LALR 分 析 法 。 从 分 析 能 力 上 说 ,LALR 的 能 力 
弱 于 LR(1) , 强 于 SLR, 构 造 的 分 析 表 尺寸 与 SLR 分 析 表 相同 。 
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6.5.1 基本 思想 


LALR 分 析 法 是 在 LR(1) 文 法 的 基础 上 构造 出 来 的 , 仅 当 文法 是 LR(1) 时 才 有 可 能 构造 
LALR 分 析 表 。 
车 文法 G' 的 LR(1) 的 两 个 项 目 集 T; 和 5 在 去 掉 各 项 目 中 的 搜索 符 之 后 是 相同 的 , 则 称 这 
两 项 目 集 为 同心 的 ,例如 G(Ex) 的 LR(1) 项 目 集 族 中 7 与 13,5 与 10,4 与 12,8 与 11 都 是 同 
心 的 。 合 并 同心 项 目 集 , 可 得 到 一 个 与 LR(0) 相 同 的 项 目 集 ,也 就 是 说 它 的 状态 数 与 LR(0) 
相同 。 
在 合并 同心 项 目 集 的 同时 ,以 某 种 方式 合并 LR(1) 分 析 表 中 的 ACTION 表 和 GOTO 表 
的 对 应 项 ,从 而 可 以 在 LR(1) 分 析 表 的 基础 上 构造 一 个 尺寸 与 LR(0) 分 析 表 相同 的 分 析 表 。 
若 这 个 表 不 含 多 重 定义 项 , 它 就 是 LALR 分 析 表 。 
例如 ,图 6.10 中 将 5 与 10,4 与 12,7 与 13,8 与 11 进行 合并 ,合并 之 后 去 掉 10、.11、12、13 
四 个 状态 , 变 成 状态 数 与 SLR 相同 的 分 析 表 框架 。 
下 面 主要 讨论 如 何 合并 ACTION 和 GOTO 表 中 的 对 应 项 ,合并 时 若 出 现 冲 突 该 怎么 
解决 。 
(1) GOTO 表 合 并 之 后 不 会 出 现 转向 冲突 。 
根据 GO 函数 的 定义 GO(I,X) = 二 CLOSURE(J), 其 中 J={ 形 如 (A 一 aX，B,a) 的 项 目 
1(A>a，XB,a) ET) ,转向 之 后 搜索 符 不 变 , 即 与 搜索 符 无 关 。 
例如 设 I ,I 同心 , 则 : 
(A>a* XB,) ETD, GO(,:X)>(A>aX. B.a) 
(A>a* XB,b)El, GO(L,,X)>(A>aX. B,b) 
转向 之 后 仍然 是 同心 的 ,没有 冲突 。 
(2) ACTION 表 合 并 ,分 六 种 情况 讨论 如 下 : 
@@ 出 错 与 出 错 合并 ,结果 仍 为 出 错 , 没 有 冲突 。 
@ 移 进 与 移 进 合并 ,已 讨论 过 无 冲突 。 
@ 归 约 与 归 约 合并 ,这 里 分 两 种 情况 讨论 : 
a. 按 同一 产生 式 归 约 ,无 冲突 ; 
b. 按 不 同 产 生 式 归 约 ,将 造成 冲突 ,因此 LALR 的 能 力 弱 于 LR(1)。 
例如 ,文法 : 
(0) S'>S 
(1) S>aAd|bBd|aBe|bAe 
(2) A 一 c 
(3) Be 
如 果 构 造 这 个 文法 的 LR(1) 项 目 集 族 ,那么 将 发 现 它 不 存在 冲突 性 动作 ,所 以 该 文法 是 
LR(1) 文 法 。 在 项 目 集 族 中 含有 两 个 项 目 {(A>c，.d)(B>c，,e)} 和 {(A>c，,e)(B>c。， 
d)) ,这 两 个 项 目 集 都 不 含 冲突 ,而 且 是 同心 的 。 现 在 将 它们 合并 变 成 {(A>c，,dle)(B>c， 
dle)}。 显 然 , 当 面临 d 或 e 这 两 个 搜索 符 时 ,我 们 不 知 用 A 一 c 还 是 B>c 产生 式 来 归 约 , 即 出 
现 了 归 约 一 归 约 冲突 。 
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@ 出 错 与 移 进 合并 ,这 种 情况 不 会 出 现 的 ,因为 出 错 项 目 与 移 进 项 目 不 同 心 。 
@@ 移 进 与 归 约 合并 ,这 种 情况 也 不 会 出 现 , 道 理 同 @。 
@ 归 约 与 出 错 合 并 ,其 结果 人 为 地 规定 它 做 归 约 。 在 G(Ex) 的 表 6.4 中 ,5 与 10、7 与 13、 


8 与 11 合并 都 出 现 这 种 情况 。 由 此 可 见 ,LALR 与 LR(1) 相 比 ,放松 了 报错 条 件 。 也 就 是 说 ， 
在 LR(1) 中 它 能 马上 报告 出 错 ,但 在 LALR 中 却 去 做 归 约 。 好 在 LALR 分 析 法 对 错误 的 定位 
能 力 没有 降低 ,因为 移 进 能 力 没有 减弱 ,在 下 一 个 符号 移 进 之 前 总 能 报告 出 错 信息 。 显 然 这 种 
现象 并 不 影响 分 析 过 程 , 见 例 6. 3 。 


从 上 面 的 叙述 能 得 到 这 样 的 结论 ,只 要 合并 同心 项 目 集 之 后 ,就 不 存在 按 不 同 产 生 式 的 归 


约 一 归 约 冲突 ,由 LR(1) 项 目 集 族 总 能 构造 出 LALR 分 析 表 。 


6. 5.2 构造 LALR 分 析 表 的 算法 


(CS' 一 


构造 LALR 分 析 表 的 算法 (算法 6.4) 的 主要 步骤 是 : 

(1) 构造 文法 G' 的 LR(1) 项 目 集 族 C= {1 ,0 ,… ,I,}。 

(2) 把 所 有 同心 集合 并 在 一 起 , 记 作 C' = (J, 厂 ,…,Js), 它 为 合并 后 的 新 族 ,含有 项 目 
。 S,#) 的 二 为 分 析 表 初 态 。 

(3) 从 C' 构 造 ACTION 表 : 

@ 若 (A 一 a，aB,b) EJ 且 GO(Ji,a) 二 J),a 为 终结 符 , 则 置 ACTION[k,a]=S; 
@ 若 (A 一 a，,b) Eh, 则 置 ACTION[k,bj]==r, 其 中 j 为 产生 式 Ax>a 的 编号 ; 

@ 车 (S' 一 S。,#)ElI, 则 置 ACTION[k,#] 王 acc。 

(4) 构造 GOTO 表 : 假 定 J 是 fi ,Ifz,…,I 合 并 后 的 新 集 。 由 于 所 有 这 些 工 同心 ,因此 


GO(a,X) ,GO(z ,X)…GO(Ie,X) 也 是 同心 的 ,并 记 作 本 。 也 即 GO(Ji,X)=J;, 着 有 GO(Ji， 
A)= Ji,AEVN, 则 置 GOTO[k,A]=i。 


(5) 凡 不 能 用 步骤 (1) 至 (4) 填 写 的 空白 项 , 均 填 上 报错 标志 。 
定义 :文法 G' 按 算法 6. 4 构造 分 析 表 , 若 不 存在 多 重 定义 项 , 则 称 文法 G' 是 LALR(1) 的 。 
例如 ,由 G(Ex) 文 法 的 LR(1) 项 目 集 族 (图 6.10) 构 造 LALR 分 析 表 ,如 表 6.5 所 示 。 


表 6.5 G(Ex) 的 LALR 分 析 表 


ACTION GOTO 

二 i x # S I R 
0 Ss S, 1 2 3 
EL acc 
2 Se re 
3 rs 
4 Ss SS 8 7 
5 rs Is 
6 Ss SS 8 
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续 表 6. 5 


ACTION GOTO 


EE 


[ 例 6. 3] 设 文法 G(Ex): 
1.S' 一 S 

S>L=R 
S>R 
L—>*R 
Li 
. R>L 
其 LR(1) 分 析 表 ( 见 表 6.4) 和 LALR 分 析 表 ( 见 表 6. 5) 已 构造 好 ,请 给 出 分 析 输 入 串 i= * i 一 
# 的 全 过 程 。 

解 :LR(1) 分 析 过 程 如 下 : 


> 


12,6 


2,6,12 


»2,6,12,10 
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状态 栈 
0,2,6,4,7 


0,2,6,8 


0,2,6,9 


报告 输入 串 有 错 


由 例 6.3 可 见 , 用 LR(1) 分 析 , 遇 到 输入 串 有 错时 立刻 报错 ;用 LALR 分 析 , 遇 到 输入 串 有 
错时 并 没有 立刻 报错 ,而 是 多 做 了 几 步 归 约 (步骤 6 一 步骤 9) 后 才 发 现 。 但 是 它们 对 错误 的 定位 
是 一 样 的 (例子 指出 : 当 *“ x 六 后 跟 *==” 时 出 错 ) ,可 见 LALR 分 析 法 的 报错 能 力 并 没有 减弱 。 


6.6 二 义 文法 的 应 用 
任何 二 义 文法 绝 不 是 一 个 LR 文法 ,因而 也 不 是 SLR 或 LALR 文法 ,这 是 一 条 定理 。 但 
是 , 某 些 二 义 文法 是 非常 有 用 的 。 例 如 ,车 用 二 义 文法 
G6.2: E'™>E 
E>E+EIEx*x E|(E)|i 
来 描述 含有 “十 ”“ x* ”的 算术 表达 式 , 并 对 算 符 “ 十 ”“ x* ”赋予 优先 级 和 结合 规则 ,那么 这 个 文 
法 是 最 简单 的 了 。 这 个 文法 与 文法 ( 见 6.3 节 ) 
G(E): E'™>E 
E>E+TIT 
T—>TxFI|F 
F>(E)|i 
相 比 ,它们 定义 的 语言 相同 ,但 它 有 两 个 明显 的 好 处 :首先 ,如 需要 改变 算 符 的 优先 级 或 结合 规 
则 ,无 需 去 改变 文法 G6. 2 自身 ;其 次 ,文法 G6.2 的 分 析 表 所 包含 的 状态 肯定 比 GCE) 所 包含 
的 状态 要 少 得 多 ,因为 G(E) 中 含有 单 非 产 生 式 E>T 和 T>F, 这 些 旨 在 定义 算 符 优先 级 和 结 
合 规则 的 产生 式 要 占用 不 少 状态 和 消耗 不 少时 间 。 本 节 将 讨论 如 何 使 用 LR 分 析 法 的 基本 思 
想 , 凭 借 一 些 其 他 条 件 来 分 析 二 义 文法 所 定义 的 语言 。 我 们 以 文法 G6. 2 为 例 进 行 讨论 。 

文法 G6.2 的 LR(0) 项 目 集 规范 族 如 图 6. 11 所 示 。 在 状态 D ,存在 “接受 和”* 移 进 ” 的 冲 
突 ,这 可 用 SLR 的 办 法 予以 解决 。 因 为 Follow(E') 仅 含 # ,所 以 当面 临 *#” 时 ,接受 是 唯一 可 
行 的 动作 。 另 一 方面 ,只 有 在 面临 * 十 ”和 “x* ”时 才 要 求 执行 “ 移 进 ”"。 所 以 ,I 状态 不 存在 移 
进 一 归 约 冲突 。 

但 是 状态 I 在 面临 * 十 "或 ** ”时 所 存在 的 归 约 (用 E>E 十 E) 和 移 进 冲突 却 不 是 用 SLR 
方法 所 能 解决 的 ,因为 不 论 * 十 ?或 “* ”都 属于 Follow(E)。 状 态 1s 在 面临 “十 ”或 “* ”时 也 类 
似 地 存在 归 约 (用 E-~E* 下 ) 和 移 进 冲突 。 这 些 冲 突 只 有 借助 于 其 他 条 件 才能 得 到 解决 。 这 
个 条 件 就 是 使 用 关于 算 符 “十 ”和 “x* ”的 优先 级 和 结合 规则 的 有 关 信 息 。 

让 我 们 考虑 输入 串 i 十 i* i。 在 处 理 了 i 十 i 之 后 .分析 器 进入 到 状态 I; ,这 时 符号 栈 内 容 为 
#E 十 EE, 状 态 栈 内 容 为 0、1、4、7, 输 入 串 的 剩余 部 分 为 *i# 。 假 定 “* ”的 优先 级 高 于 “十 ”, 则 
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6.11 二 义 文法 的 LR(0) 项 目 集 


应 把 * x* ” 移 进 栈 ,准备 先 把 * * ”和 它 的 左右 操作 数 i 归 约 成 表达 式 E, 这 正 是 我 们 所 希望 的 。 
也 就 是 说 ,在 状态 D ,面临 * ”时 应 做 移 进 操作 ,而 不 做 归 约 操作 。 另 一 方面 ,如 果 我 们 人 为 地 
认为 “十 ”的 优先 级 高 于 “x*”, 则 这 时 应 把 EE 十 E 归 约 为 E。 可 见 , 用 这 种 方法 改变 算 符 优先 级 


是 极其 方便 的 。 


假定 输入 串 为 i 十 i 十 i, 在 处 理 了 i 十 i 后 分 析 器 仍然 到 达 I; 。 这 时 符号 栈 内 容 同 样 是 # 下 
十 刁 , 而 输入 串 剩 余部 分 为 十 i# 。 状 态 I 面临 十 号 同样 存在 移 进 一 归 约 冲突 。 
合 规则 告诉 我 们 ,如果 “十 ”服从 左 结合 , 那 就 应 首先 用 E>E 十 E 实行 归 约 ;如 果 “ 十 ”服从 右 结 


合 , 那 就 应 执行 移 进 操 作 。 


由 于 规定 了 “x* ”的 优先 级 高 于 “十 ”, 且 “x*” 和 “十 ” 算 符 服从 左 结合 ,所 以 在 状态 D ,面临 
“x ”时 应 采用 移 进 动作 ,而 面临 “十 ”时 应 采用 E>E 十 E 归 约 操作 。 在 状态 R ,面临 "* ”时 应 


采用 E-~ExE 归 约 操作 ,面临 “十 ”时 更 应 采用 E~~ExE 归 约 操作 。 
采用 这 种 办 法 ,我 们 得 到 文法 
G6.2: (1) E>E+E (3) B>(E) 
(2) E>ExE (4) Ei 
的 LR 分 析 表 如 表 6. 6 所 示 。 
表 6.6 二 义 文法 的 LR 分 析 表 
ACTION 


算 符 “十 ”的 结 


GOTO 


吧 


1 


ACTION 


续 表 6.6 


GOTO 


采用 了 附加 条 件 之 后 ,对 于 发 生 冲 突 的 表 元 素 ( 见 表 6.6) 仅 保留 一 种 操作 ,不 被 选择 的 操 


作 括 在 括号 内 。 


利用 表 6. 6 分 析 输 入 串 i 十 ix (i) # 的 全 过 程 如 表 6.7 所 示 。 注 意 ,在 第 5 步 ,状态 DT 面 
临 符号 " * ”时 选择 做 移 进 动作 。 因 为 ** ”的 优先 级 高 于 “十 ”, 尽 管 栈 内 句柄 已 形成 ,但 不 做 归 


约 动作 。 


表 6.7 i 二 ixi(iD 的 分 析 过 程 


i 十 1x (i)# 


Hix (i)# 


Hix (i)# 


ix (i) 井 


关 《iD) 


关 《i) 
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作为 另 一 个 例子 ,我 们 考虑 条 件 语句 让 …then…else 二 义 结构 的 文法 , 它 可 描述 为 : 
G6.3: (1) S>iSeS 
(2) S>iS 
(3) S—a 
它 的 LR(0) 项 目 集 族 如 图 6. 12 所 示 。 


:SiSe.S 
S— .iSeS 


lL: S—iSeS: 9 


6.12 文法 G6.3 的 LR(0) 项 目 集 族 


对 于 条 件 语 句 , 当 if C then S 呈现 于 栈 顶 并 面临 输入 else 时 ,应 该 执行 移 进 还 是 执行 归 
约 呢 ?按照 通常 的 习惯 ,是 让 else 与 最 近 的 一 个 then 相 结 合 , 因 此 应 该 移 进 。 由 文法 G6. 3 
构造 的 LR(0) 项 目 集 1 来 看 , 读 头 下 所 面临 的 e 只 是 以 (呈现 于 栈 顶 的 符号 串 )iS 为 首 的 候选 
的 一 部 分 。 如 果 跟 在 e 后 面 的 符号 不 能 归 约 出 一 个 S, 那 么 整个 输入 串 就 无 法 最 终归 约 为 S。 
如 果 认 为 呈现 于 栈 顶 的 符号 串 iS 已 构成 句柄 ,那么 eS 将 永远 不 可 能 进 栈 , 所 以 我 们 的 结论 
是 :状态 1 存在 的 “ 移 进 一 归 约 ” 冲 突 应 采用 移 进 e 的 办 法 来 解决 。 这 样 , 可 以 从 图 6. 12 的 
LR(0) 项 目 集 构造 出 文法 G6. 3 的 拓 广 文法 的 LR 分 析 表 ( 见 表 6. 8 ,注意 FOLLOW(S) 二 
{e,#} ,但 在 ACTION[4,e] 处 仅 选择 Ss ,而 不 选 = ) 。 

表 6.8 G6.3 文法 的 LR 分 析 表 
ACTION GOTO 


例如 ,假定 输入 串 为 iiaea, 整 个 分 析 过 程 如 表 6.9 所 示 。 注 意 ,在 第 5 行 ,状态 1 在 面临 e 
时 选择 了 移 进 动作 ;而 在 第 9 行 :状态 4 在 面临 # 时 选择 了 用 S~~iS 进行 归 约 的 动作 。 
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表 6.9 iiaea 的 分 析 过 程 


状态 序列 


井 


#1 


井下 


0223 #1ia 


0224 #1iS 


02245 #1iiSe 


022453 # iiSea 


022456 #1iiSeS 


024 #1iS 


01 井 S 


6.7 分 析 表 的 自动 生成 


在 上 一 节 ,我 们 看 到 了 如 何 用 优先 级 和 结合 性 质 这 些 条 件 来 构造 二 义 文法 的 LR 分 析 表 。 
下 面 介绍 一 个 编译 程序 编写 系统 YACC 的 基本 思想 。YACC 能 接受 用 户 提供 的 文法 (可 能 二 
义 ) 和 优先 级 结合 性 质 等 附加 信息 ,自动 产生 这 个 文法 的 LALR 分 析 表 (有 的 甚至 可 包括 接 
受 语义 描述 和 目标 机 器 描述 ,并 完成 源 语言 到 目标 代码 的 翻译 ) 。 

对 用 户 提供 的 文法 ,YACC 将 首先 产生 它 的 LALR(1) 状 态 ( 项 目 集 ) ,然后 试图 为 每 个 状 
态 选择 适当 的 分 析 动作 。 如 果 不 存在 冲突 ( 即 文法 是 LALR(1) 的 ), 那 就 无 需 使 用 其 他 附加 信 
息 。 如 果 文 法 是 二 义 的 , 则 附加 信息 是 必 不 可 少 的 。 


6.7.1 终结 符 和 产生 式 的 优先 级 


YACC 解决 移 进 一 归 约 冲突 的 基本 方法 是 赋予 每 个 终结 符 和 产生 式 以 一 定 的 优先 级 。 
假定 在 面临 输入 符号 a 时 碰 到 移 进 和 归 约 (用 A 一 a) 的 冲突 ,就 比较 终结 符 a 和 产生 式 A>a 
的 优先 级 。 若 A 一 a 的 优先 级 高 于 a 的 优先 级 , 则 执行 归 约 ;反之 , 则 执行 移 进 。 应 当 指 出 ,如 
果 对 产生 式 A 一 a 不 特别 赋予 优先 级 ,就 认为 A 一 a 和 出 现在 a 中 的 最 右 终结 符 具有 相同 的 优 
先 级 。 自 然 ,那些 不 涉及 冲突 性 的 动作 将 不 理 皮 赋 予 终结 符 和 产生 式 的 优先 级 信息 。 

例如 ,考虑 文法 S>iSeS|liS|a, 它 的 LR(0) 项 目 集 见 图 6. 12。 如 果 只 规定 e 的 优先 级 高 于 
i, 则 产生 式 SxiS 的 优先 级 低 于 e, 因 为 SxiS 的 优先 级 和 i 相同 ,i 是 这 个 产生 式 的 最 右 一 个 
终结 符 。 在 这 个 简单 规定 下 ,状态 L 面临 e 时 所 存在 的 移 进 一 归 约 (用 SiS，) 冲 突 就 解决 
为 移 进 。 

我 们 可 以 采用 类 似 下 面 的 写法 ,把 一 个 文法 连同 它 的 优先 信息 提供 给 YACC( 真 正 的 
YACC 写法 和 这 里 所 说 的 略 有 差别 , 它 包含 三 节 : 定 义 节 、 文 法 节 和 可 选 的 用 户 子 程序 节 ): 
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TERMINAL e  ”/* 优 先 级 高 的 终结 符 列 在 前 面 */ 
TERMINAL i /*i 的 优先 级 低 于 ex*/ 
S—>iSeS /* 在 列 出 有 关 终 结 符 的 优先 顺序 之 后 列 出 文法 的 所 有 
产生 式 。 同 样 , 列 在 前 面 的 产生 式 的 优先 级 较 高 * / 
SiS 
Sa 
但 是 ,也 可 以 通过 引进 一 个 优先 级 低 于 e 的 哑 终 结 符 的 办 法 ,直接 指明 产生 式 SiS 的 优 
先 级 。 这 种 写法 是 : 
TERMINAL  e 
TERMINAL “dummy ”/* 哑 终结 符 dummy 的 优先 级 低 于 ex / 
S—>iSeS 
S-~iS PRECEDENCE dummy /* PRECEDENCE 意味 着 “优先 级 等 于 ”x / 
Sa 
假如 令 i 或 SiS 的 优先 级 高 于 e, 那 么 1 在 面临 e 时 将 使 用 S>iS 进行 归 约 。 从 图 6. 12 
看 到 ,只 有 I, 有 移 进 e 的 可 能 。 如 令 1 面临 e 时 采用 SiS 归 约 ,那么 e 就 永远 无 移 进 的 可 
能 。 显 然 , 令 i 或 S-~iS 的 优先 级 高 于 e 是 不 合理 的 。 


6.7.2 结合 规则 


再 次 考虑 二 义 文法 : 
E>E+EIE* E|(E)|i 
它 的 LR(0) 项 目 集 见 图 6.11。 我 们 将 看 到 ,只 给 出 终结 符 和 产生 式 的 优先 级 还 不 足以 解 
决 所 有 冲突 。 在 "x ”优先 于 “十 ”的 假定 下 .I 面临 ** ”和 Is 面临 * 十 ”所 存在 的 冲突 问题 可 以 
解决 。 但 当面 临 * 十 ”或 I 面临 ** ”时 , 移 进 一 归 约 冲突 仍然 无 法 解决 。 如 果 规 定 了 “十 ”和 
“x ”的 结合 性 质 ,那么 这 些 冲 突 就 可 得 到 解决 。 
实际 上 , 左 结合 意味 着 实行 归 约 , 右 结合 意味 着 实行 移 进 。 规 定 “ 十 ”和 “x* ”都 服从 左 结 
合 , 就 可 以 正确 地 解决 I 和 Is 所 余下 的 冲突 。 有 些 算 符 ( 如 关系 符 ) 不 允许 结合 ,这 可 用 
YACC 的 NONASSOC 给 以 特别 指明 。 
许多 算 符 需 要 具备 相同 的 优先 级 .例如 , 双 目 算 符 “ 十 ”与 “一 ”或 ** "与 “/”, 这 些 同 优先 级 
的 算 符 排列 在 同一 个 YACC 的 TERMINAL 行 中 。 例 如 : 
TERMINAL 十 ,一 LEFT 
它 说 明 “ 十 ” “一 "具有 相同 优先 级 而 且 都 服从 左 (LEFT) 结 合 。YACC 的 专用 字 LEFT 表示 
“ 左 结 合 ”, RIGHT 表示 “ 右 结 合 ”, NONASSOC 表示 “禁止 结合 ”。 
下 面 的 例子 是 关于 FORTRAN 表达 式 的 算 符 优先 关系 和 结合 规则 的 YACC 说 明 段 。 单 目 
“一 *( 负 符号 ) 的 优先 级 比 “*”“/” 高 但 比 “^” 低 。 哑 终结 符 UMINUS 用 来 规定 单 目 “一 ”的 优先 级 。 
TERMINAL 个 RIGHT ”/* 乘 客 算 符 优先 级 最 高 , 它 服从 右 结合 */ 
TERMINAL UMINUS ” /x* 哑 符 隐 伟 单 目 “ 一 ”x*/ 
TERMINAL x,/ LEFT 
TERMINAL “十 ,一 LEFT 
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TERMINAL <=> < A NONASSOC 
TERMINAL /x* 非 */ 
TERMINAL & LEFT /< 与 关 / 
TERMINAL | LEFT /x* 或 */ 
在 这 个 关于 算 符 优先 关系 的 说 明 段 之 后 应 紧 接 着 列 出 关于 表达 式 文法 的 产生 式 。 其 中 关 
于 引进 单 目 “一 ”的 产生 式 应 写成 : 
E>—E PRECEDENCE UMINUS 
表示 产生 式 E> 一 E 和 哑 终 结 符 UMINUS 具有 相同 的 优先 级 。 因 此 ,在 包含 一 E 有 效 的 状态 
集中 ,当面 临 **”“/” 一 类 输入 符号 时 ,我 们 就 能 正确 地 用 E 一 一 下 进行 归 约 。 但 若 让 E 一 
一 EE 和 双 目 减 符号 "一 "具有 相同 的 优先 级 ,那么 在 面临 **”“/” 这 类 符号 时 就 得 执行 移 进 。 
此 外 ,YACC 采取 一 种 极其 简单 的 办 法 解决 归 约 一 归 约 冲突 :优先 使 用 列 在 前 面 的 产生 
式 进行 归 约 。 也 就 是 在 YACC 程序 中 , 列 在 前 面 的 产生 式 具有 和 较 高 的 优先 级 。 
[ 例 6. 4] 构造 赋值 语句 文法 G(A) 的 LR 分 析 表 。 
G(A): A—i;=E 


E>—E|IE* EIE+EI|(E)|i 


解 : 经 拓 广 文法 并 给 出 解决 二 义 性 的 YACC 说 明 如 下 : 
TERMINAL UMINUS 
TERMINAL * LEFT 
TERMINAL + LEET 


0. A' 一 人 A 

1，A~~i: 一 也 

2. E>—E PRECEDNCE UMINUS 
3. 
4 
5 


ES=E*E 


EE 和 TE 
.EE-=tE) 
6. 


了 上 ->i 


按 拓 广 文法 构造 G(A) 的 LR(0) 项 目 集 族 ,考虑 到 终结 符 的 优先 级 以 及 “* ”与 “十 ”的 左 
结合 规则 ,消除 了 三 个 状态 中 存在 的 移 进 一 归 约 冲突 ,最 后 可 得 表 6. 10 的 分 析 表 。 分 析 表 有 
15 个 状态 ,在 下 一 章 中 间 代 码 生 成 时 将 要 用 到 它 。 

最 后 ,讨论 LR 分 析 表 的 实际 安排 。 


表 6.10 赋值 语句 的 LR 分 析 表 


ACTION GOTO 


十 ( i E 
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续 表 6. 10 
ACTION GOTO 


( i A E 


5 


注 :@ 为 单 目 负 符号 。 


6.7.3 LR 分 析 表 的 安排 


一 个 包括 50 至 100 个 终结 符 和 100 个 产生 式 的 程序 设计 语言 大 约 包 含 数 百 个 LALR 状 
态 , 因 此 分 析 表 的 入 口 数 ( 即 ACTION 和 GOTO 项 数 ) 很 快 就 达到 2 万 个 以 上 ,而 且 每 个 人 口 
至 少 得 用 1 字 节 编码 。 为 了 节省 存储 空间 ,应当 找 一 种 有 效 的 数据 结构 来 代替 二 维 数组 。 

由 表 6. 10 可 见 , 表 是 稀疏 矩阵, 而且 ACTION 表 有 许多 行 往往 是 相同 的 ,如 状态 3、5、6、 
8.9 均 有 相同 的 ACTION 行 。 如 果 用 指示 器 来 指示 一 行 , 则 所 有 相同 行 只 需 保留 一 行 就 足够 
了 。 因 此 ,可 以 建立 一 个 以 状态 为 下 标的 一 维 数 组 。 它 的 每 个 元 素 是 一 个 指示 器 ,指向 某 一 
ACTION 行 。 每 个 ACTION 行 自身 是 一 个 一 维 数组 , 它 是 以 终结 符 为 下 标的 。 如 果 对 终结 
符 进 行 编号 ,从 0 编 起 ,那么 这 个 号 码 就 用 作 ACTION 的 下 标 。 

GOTO 表 也 可 以 作 类 似 处 理 。 但 我 们 注意 到 GOTO 表 的 空白 入 口 ( 出 错 标志 ) 是 没有 用 
的 ,因为 分 析 时 永远 也 进 不 了 这 些 入 口 ,所 以 可 更 大 胆 地 简化 ,只 保留 非 空 的 项 ,对 每 一 个 非 终 
结 符 A 安排 一 张 包 含 二 元 式 ( 当 前 状态 ,下 一 状态 ) 的 小 表 。 例 如 , 表 6. 10 有 两 个 非 终结 符 A 
与 EE, 其 对 应 小 表 如 下 : 


当前 状态 当前 状态 


0 


A 的 状态 转换 表 E 的 状态 转换 表 
采用 了 这 些 措施 ,可 以 大 大 压缩 分 析 表 的 尺寸 。 


6-1 考虑 文法 Gi: 
S™>ASIb A>SAla 
(1) 列 出 这 个 文法 的 所 有 LR(0) 项 目 , 并 构造 识别 这 个 文法 活 前 级 的 NFA ,把 这 个 NFA 
确定 化 为 DFA; 
(2) 由 算法 构造 G1 的 LR(0) 项 目 集 规范 族 。 
(3) 该 文法 是 二 义 文法 吗 ? 
6-2 考虑 文法 Gy : 
S>(A) A—>ABB A—B B>b 
(1) 由 算法 构造 Gs 的 LR(0) 项 目 集 规范 族 ; 
(2) 该 文法 是 SLR 文法 吗 ? 若是 ,构造 SLR 分 析 表 。 
6 一 3 ”证 明 下 列 文法 不 是 SLR 的 。 


G3.1: S>E G3.2: S'>S 
B>bEa SKYa 
E>aEb X—alYb 
E>ba Y=xeleé 
6-4 对 于 文法 G4: 
Ss TTtT Te 


(1) 构造 文法 Gs 的 LR(1) 分 析 表 ; 
(2) 给 出 语句 (( ”))# 的 分 析 过 程 ,并 指出 每 一 步 动 作 。 
6-5 对 于 文法 Gs: 
S—AaAb | BbBa A 一 s Be 

证 明 该 文法 是 LR(1) 的 但 不 是 SLR。 
6-6 文法 G6 的 产生 式 如 下 : 

P>bD;Se 

D>d|D;d 

S—>s|S;s 
(1) 生成 G6 的 LR(1) 项 目 集 族 ; 
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(2) 构造 G6 的 LALR 分 析 表 ; 
(3) 如 果 文 法 是 LALR 的 ,请 给 出 语句 bd;s;se 的 分 析 过 程 。 
6 一 7 证 明文 法 Gi: 

S—>AalbAc|Bc|bBa A—>d B—>d 
是 LR(1) 的 但 不 是 LALR 的 。 
6 一 8 给 定 文法 Gs , 试 判断 它 是 哪 一 类 LR 文法 ,并 构造 其 相应 的 分 析 表 。 

Gs: S>P H-~bd| Hi;d 

P>CIB T—>sels;T 
B>H;T C—>bT 

注 :S 为 开始 符号 ,b,e,d,s, ;为 终结 符 。 
6-9 已 知 文法 G,: 

E>E+E|EE|IE* |(E)|alb| 人 
(1) 试 求 CLOSURE({(S 一 ，E,#))); 
(2) 求 GO(CLOSURE({(S—>. E,#)})),E); 
(3) 给 出 解决 二 义 性 的 YACC 说 明 ,按照 这 个 说 明 能 正确 地 分 析 正 规 式 。 
6-10 给 定 文法 Gu : 

E>EE+ E>EE* E>a 
(1) 文法 是 SLR 的 吗 ? 若是 ,构造 SLR 分 析 表 ; 
(2) 文法 是 LR(1) 的 吗 ? 若是 ,构造 LR(1) 分 析 表 ; 
(3) 给 出 后 缀 式 aaa 二 ax * # 的 分 析 过 程 。 


7 语法 制导 翻译 并 产生 中 间 代 码 


7.1 概 述 


通过 词法 分 析 和 语法 分 析 , 我 们 已 经 能 识别 正确 的 源 程 序 , 但 这 些 源 程序 所 表示 的 含义 是 
什么 ? 有 哪些 内 在 联系 ? 如 何 将 它们 表示 成 规格 一 致 , 便 于 计算 机 加 工 的 指令 形式 ? 这 是 语 
法 分 析 的 后 继 阶段 有 待 解决 的 核心 任务 。 由 于 计算 机 指令 与 硬件 关系 太 密 切 ,不 同 硬件 有 不 
同 的 指令 系统 ,所 以 通常 是 生成 一 组 中 间 代 码 的 形式 一 一 它 不 是 机 器 语言 ,但 又 便于 生成 机 器 
语言 。 中 间 代 码 的 另 一 优点 是 便于 代码 优化 。 通 常 翻译 都 是 将 源 语 言 转换 成 中 间 代 码 的 形 
式 。 常 用 的 中 间 代 码 有 逆 波 兰 表 示 法 、.P -代码 、 树 形 表示 法 、 三 元 式 和 四 元 式 等 ,其 中 以 四 元 
式 用 得 最 普遍 ,本 章 将 重点 介绍 之 。 

词法 分 析 与 语法 分 析 已 经 有 相当 成 熟 的 理论 基础 及 形式 化 系统 ,而 中 间 代 码 生 成 还 没有 
一 种 公认 的 形式 化 系统 ,其 部 分 工作 还 处 于 经 验 阶段 ,因为 语义 形式 化 比 语法 形式 化 难得 多 。 
但 我 们 还 是 尽量 向 形式 化 靠拢 ,其 中 语法 制导 翻译 方法 就 是 比较 接近 于 形式 化 的 。 利 用 属性 
文法 制导 翻译 也 是 接近 于 形式 化 的 。 本 章 以 介绍 前 者 为 主 。 所 谓语 法 制导 翻译 是 在 语法 分 析 
的 基础 上 进行 边 分 析 边 翻译 。 我 们 在 语法 分 析 时 利用 产生 式 进 行 归 约 或 推导 ,但 当时 并 未 顾 
及 产生 式 右 部 的 符号 串 的 含义 ,而 现在 要 进行 翻译 ,当然 要 知道 它们 的 内 在 含义 是 什么 ,同时 
还 要 知道 应 产生 什么 样 的 目标 (中 间 ) 代 码 形式 。 知 道 了 这 两 者 之 后 ,就 可 以 编制 一 个 语义 子 
程序 ,根据 语义 产生 中 间 代 码 。 具 体 做 法 是 为 每 一 个 产生 式 配 置 一 个 语义 子 程序 , 当 语法 分 析 
进行 归 约 或 推导 时 ,就 调用 此 语义 子 程序 完成 一 部 分 翻译 任务 。 语 法 分 析 完 成 ,翻译 工作 也 告 
结束 。 

自 上 而 下 分 析 时 ,由 于 采用 推导 ,对 每 一 个 文法 符号 都 可 以 配 以 语义 动作 ,所 以 翻译 比较 
细 ; 而 自 下 而 上 分 析 , 仅 当 句 柄 形成 时 才能 执行 语义 动作 ,有 时 感到 太 粗糙 ,在 一 些 情况 下 不 得 
不 改写 文法 ,将 一 个 产生 式 分 解 成 若干 个 产生 式 。 对 算 符 优先 分 析 法 ,因为 它 并 不 是 严格 按照 
句柄 归 约 ,语义 动作 略 有 出 和 人。 总 的 来 说 ,语法 制导 翻译 对 几 种 语法 分 析 法 都 是 适用 的 。 本 章 
以 介绍 LR 分 析 的 翻译 为 主 ,兼顾 介绍 自 上 而 下 分 析 的 语法 制导 翻译 。 特 别 是 对 本 课程 实践 
的 EL 语言 ,就 是 要 求 在 递归 下 降 分 析 或 算 符 优 先 分 析 的 基础 上 产生 中 间 代 码 。 

一 个 语义 子 程序 描述 了 一 个 产生 式 所 对 应 的 翻译 工作 。 这 些 翻译 工作 在 很 大 程度 上 决定 
于 要 产生 什么 形式 的 中 间 代 码 。 一 般 而 言 ,这 些 工作 包括 改变 菜 些 变量 的 值 、 查 填 各 种 符号 
表 、 发 现 并 报告 源 程序 错误 .产生 中 间 代 码 等 。 为 了 描述 语义 动作 ,需要 为 每 个 文法 符号 
X(XE VrUVN) 赋 予 各 种 不 同 的 语义 值 :类 型 .地 址 .代码 值 等 等 。 为 了 便于 介绍 ,我 们 把 语 
义 子 程序 写 在 该 产生 式 后 面 的 花 括 号 内 ,其 一 般 形 式 为 : 

(1) Xa { 语 义 子 程序 1} 
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(2) Y 一 B {语义 子 程序 2} 

(3) A 一 y 《语义 子 程序 3} 

在 一 个 产生 式 中 ,同一 文法 符号 可 能 多 次 出 现 。 它 们 代表 不 同 的 变量 或 值 ,为 了 区 分 可 给 
它们 加 上 角 标 ,如 将 E 一 FE 十 E 表示 为 EE 十 E'2 ,这 样 就 能 区 分 三 个 下 的 语义 值 。 当 产生 
式 进行 归 约 时 ,对 产生 式 右 部 符号 的 语义 值 进行 综合 ,其 结果 作为 左 部 符号 的 语义 值 保存 下 
来 。 这 些 语 义 值 放 在 哪里 呢 ? 最 好 办 法 是 放 在 语义 栈 内 。 因 为 , 当 栈 顶 句柄 ( 即 某 产生 式 右 部 
符号 串 ) 形 成 时 , 便 被 归 约 (被 该 产生 式 左 部 符号 取代 )。 与 此 同时 ,产生 式 右 部 符号 的 语义 值 
也 被 综合 ,并 保存 在 与 左 部 符号 相应 的 语义 栈 内 ,而 右 部 符号 的 语义 值 也 就 没有 用 处 了 ,因此 
就 不 必 保 留 , 这 个 工作 与 分 析 栈 几乎 同步 进行 。 为 此 对 下 推 栈 进行 扩充 ,使 它 包含 三 栏 :状态 
栏 , 符 号 栏 和 语义 栏 (习惯 上 称 它们 为 状态 栈 、 符 号 栈 和 语义 栈 ) ,如 图 7.1 所 示 。 

假定 语义 栈 内 放 的 是 文法 符号 的 值 本 pe ge 和 

。 E” |E®. vAL| Top 

(VAL), 其 栈 顶 指针 与 分 析 栈 栈 顶 指针 相同 ,都 S 四 | 
用 TOP 表示 。 在 语法 分 析 时 曾 讲 过 ,文法 符号 
根本 无 需 进 栈 ,因为 分 析 工 作 是 由 状态 栈 承担 


的 ,图 中 给 出 符号 本 是 为 了 介绍 语义 栈 的 内 容 状态 答 引 ”WALGEW 
与 哪个 文法 符号 有 关 才 列 出 ,实际 分 析 时 不 需 下 
要 符号 栈 。 

作为 一 个 例子 ,我 们 考虑 二 义 的 表达 式 文法 ,并 给 出 计 值 的 语义 子 程序 描述 。 

产生 式 语义 子 程序 

(0) S 一 下 {PRINT E. VAL)} 

EIN {E* VAL:=E® . VAL+E'? « VAL} 

(2) EE *E® {E* VAL:=E® . VAL*x E‘? 。 VAL} 

《3》 EE {E* VAL:=EY . VAL} 

(4) Ei {E®* VAL:=LEXVAL)} 

说 明 ， 


(1) 语义 动作 中 的 十 、* 代表 整 型 量 加 、 乘 运算 , 即 对 语义 栈 中 的 值 进行 运算 ， 

(2) LEXVAL 为 词法 分 析 送 来 的 机 内 二 进 制 整数 。 

根据 图 7. 1 的 表示 法 ,语义 值 是 放 在 语义 栈 内 ,因此 它 也 可 用 栈 指 针 TOP 来 指出 。 壁 如 
E2。VAL 在 未 归 约 时 可 写作 VALLTOP], 由 于 语义 子 程序 是 紧 跟 在 归 约 动作 之 后 执行 的 ， 
所 以 归 约 之 后 E”。VAL 写作 VALLTOP 十 2]。 同 样 ,E'?。VAL 在 归 约 之 后 可 写作 VAL 
[TOP]j,E.VAL 在 归 约 之 后 也 可 写作 VALLTOPJ, 这 样 语义 子 程序 可 改写 如 下 : 


产生 式 语义 子 程序 
(0) S 一 下 {PRINT VAL[TOP]} 
(1 BEE {VAL[TOP]:=VAL[TOP]+VAL[TOP+2)J} 
C2 EE {VALLTOP]:=VALLTOP]* VALLTOP+2]} 
(Sy E(tEDY {VAL[LTOP]:=VAL[LTOP++1)} 
(4) E>i {VAL[TOP]:=LEXVAL)} 


表 7.1 列 出 了 分 析 输 入 串 (7 十 9)* 5# 并 给 出 它 的 计 值 的 过 程 。 语 法 分 析 采 用 LR 总 控 
程序 ,分 析 表 用 表 6.6。 当 状态 1 面临 # 时 ,对 应 的 动作 是 acc, 这 时 相应 语义 子 程序 为 PRINT 
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VAL [TOPJ, 即 输出 计 值 结果 80 。 
表 7.1 分 析 与 计算 语义 值 


INPUT ACTION 


(7 十 9) x 5## 


7 十 9) * 5# 移 进 
十 9) * 5 间 移 进 
十 9) * 5 间 r4 
9)x5# 移 进 
) x*5 提 移 进 
) * 5 井 r4 


)*5# rl 
x*5 提 移 进 
x*5# r3 


5# 


注 :VAL 栈 中 “一 ”表示 该 单元 为 空 。 


按照 上 述 的 实现 办 法 ,车 把 语义 子 程序 改 成 产生 某 种 中 间 代 码 的 动作 ,就 能 在 语法 分 析 制 
导 下 , 随 着 分 析 的 进展 逐步 生成 中 间 代码 。 ie eid 
令 , 那 么 , 随 着 分 析 的 进展 就 能 将 源 程序 翻译 成 某 机 器 的 汇编 语言 程 

下 面 ,我 们 将 着 重 介绍 产生 四 元 式 中 间 代 码 。 ww 
予以 简单 介绍 。 


7.2 简单 算术 表达 式 和 赋值 语句 的 翻译 


7.2.1 四 元 式 


四 元 式 类 似 于 三 地 址 指令 ,其 形式 如 下 : 
(OP, ARG,, ARG;, ,RESULT) 
其 中 ,OP 指 运算 符 ;ARG1 、ARG, 指 两 个 运算 量 , 这 意味 着 OP 是 双 目 运算 符 , 若 只 给 一 个 运 
算 量 (比如 只 给 ARG1) 则 OP 为 单 目 运算 符 ;RESULT 存放 结果 单元 。 所 以 , ARG1 、ARG,、 
RESULT 可 能 是 用 户 自 定义 的 变量 ,也 可 能 是 编译 时 引进 的 临时 变量 。 我 们 可 以 很 容易 将 一 
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赋值 语句 表示 成 四 元 式 , 例 如 赋值 语句 A:= 一 B* (C 十 D) 可 表示 为 : 

RESULT 注 解 

Ti 临时 变量 

Ts: 临时 变量 

T; 临时 变量 
赋值 


四 元 式 排列 顺序 与 表达 式 计 值 顺序 一 致 ,它们 都 是 在 语法 制导 下 完成 的 。 操 作 码 OP 在 
机 内 实际 上 是 整数 值 ,也 就 是 词法 分 析 送 回 的 单词 类 别 , 有 时 根据 需要 再 加 上 类 型 的 信息 。 操 
作 数 ARG 与 结果 RESULT 通常 是 指示 器 ,指向 某 一 变量 的 符号 表 入 口 地 址 ,或 者 是 临时 变 
量 的 序号 。 临 时 变量 序号 一 般 用 整 常 数 表 示 , 它 不 进 符号 表 , 也 不 分 配 存 储 单元 , 究 竞 怎么 处 
理 待 优化 和 目标 代码 生成 阶段 考虑 。 这 里 是 不 加 限制 地 使 用 。 

很 明显 , 若 机 器 本 身 就 是 采用 三 地 址 指令 ,那么 执行 上 面 的 序列 就 可 得 结果 ; 若 不 是 三 地 
址 指令 ,那么 转换 成 单 地 址 或 双 地址 指令 也 不 难 。 另 外 ,由 于 四 元 式 优化 比较 容易 ,这 就 是 中 
间 代 码 多 采用 四 元 式 的 原因 。 

此 外 ,为 什么 四 元 式 中 变量 多 采用 变量 的 符号 表 入 口 地 址 而 不 直接 采用 变量 地 址 本 身 呢 ? 
这 是 因为 给 了 符号 表 入 口 地 址 就 能 查 得 变量 的 属性 、 类 型 地址 等 ,这 是 语义 分 析 所 必需 的 。 


7.2.2 赋值 语句 的 翻译 


首先 讨论 仅 含 简单 变量 的 表达 式 和 赋值 语句 的 翻译 。 含 有 复杂 数据 结构 (如 数组 元 素 引 
用 ) 的 表达 式 和 赋值 语句 的 翻译 将 在 以 后 讨论 。 为 简单 起 见 , 先 不 讨论 类 型 检查 问题 。 

赋值 语句 的 文法 描述 为 

G7.1: Am>i:;=E 
E>E+TEIE*xE|—E|I(E)|i 

非 终结 符 A 代表 “赋值 语句 ”。 分 析 表 采用 表 6. 10。 

为 了 实现 从 表达 式 到 四 元 式 的 翻译 ,需要 一 些 语义 变量 和 语义 过 程 ,对 此 先 介绍 如 下 : 

Q@NEWTEMP: 函 数 过程 , 每 次 调用 送 回 一 个 代表 新 的 临时 变量 的 序号 (递增 的 整数 值 )， 
可 理解 为 Ti,T,,… ,这样 一 些 临时 变量 。 

@ENTRY(i) :函数 过 程 , 它 用 于 查 变 量 i 的 符号 表 入 口 地 址 ,其 返回 量 就 是 i 的 符号 表 入 
口 地 址 。 

@GEN (OP,ARG ,ARG: ,RESULT): 语 义 过 程 , 它 产 生 一 个 四 元 式 , 并 填 进 四 元 式 序 
列表 。 

@E，PLACE: 与 非 终 结 符 E 相 联 系 的 语义 变量 , 它 的 值 可 能 是 某 变量 的 符号 表 入 口 地 
址 ,或 者 是 临时 变量 序号 。 

语义 变量 总 是 和 文法 的 非 终 结 符 相 联系 , 它 随 着 分 析 过 程 的 需要 而 建立 或 消亡 , 它 与 用 户 
定义 的 变量 不 同 。 

使 用 这 些 语义 过 程 与 语义 变量 ,对 文法 G7. 1 所 定义 的 赋值 语句 的 翻译 算法 可 由 下 面 的 
语义 子 程序 予以 描述 。 
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产生 式 语义 子 程序 


KL A 二 {GEN(:=,E* PLACE,—,ENTRY(D)))} 
C2 {T:=NEWTEMP:; 

GEN(@,E®Y . PLACE,—,T);E* PLACE:=T} 
(9% EE x ES {T:=NEWTEMP:; 

GEN(* ,EY 。 PLACE,E®? 。 PLACE,T);E. PLACE:=T} 
(4) EE 十 下 名 {T:=NEWTEMP; 

GEN(+,E'Y 。« PLACE,E'? « PLACE,T);E. PLACE:=T)} 
(0% EE {E. PLACE:=E® . PLACE)} 
(6) Ei {Es PLACE;=ENTRY(D') 


表 7.2 列 出 赋值 语句 A: 三 一 Bx (C 十 D)# 的 LR 分析 过 程 。 语 法 分 析 采 用 表 6. 10。 语 
义 变 量 E. PLACE 存 人 语义 栈 PLACE 中 ,而 符号 栈 SYM 只 是 为 了 介绍 才 列 出 ,实际 上 并 不 
存在 。 相 反 地 ,状态 栈 实 际 上 是 需要 的 ,但 由 于 与 语义 动作 无 关 , 而 没有 列 出 。 分 析 结 果 产 生 
四 元 式 序列 , 列 在 第 四 栏 。 这 个 分 析 过 程 是 针对 整 型 变量 作出 的 。 


表 7.2 赋值 语句 语法 制导 翻译 过 程 
输入 符号 串 PLACE 栈 生成 四 元 式 


A:=—Bx (C+D)# 


:三 一 Bx* (C+D)# 


—Bx (C+D)# 


Bx (C+D)# 


x* (C+D)# 


x* (C+D)# 


*(C+D)# 


(C+D)# 


HD) 


(二 +,C,D,T;) 


(xy Tiy,Tz,Ts) 


Cr=3Ts— :A 
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7.2.3 类 型 转换 


在 上 面 的 例子 中 ,假定 所 有 变量 i 是 同一 类 型 ( 整 型 )。 实 际 上 ,在 一 个 表达 式 中 ,可 能 出 
现 各 种 不 同类 型 的 变量 或 常量 。 所 以 ,编译 程序 必须 做 到 :或 者 拒绝 接受 某 种 混合 运算 ,或 者 
产生 有 关 类 型 转换 的 指令 。 
例如 , 令 文 法 G7. 1 中 的 i 既 可 以 是 实 型 量 也 可 以 是 整 型 量 。 当 两 个 不 同类 型 的 量 进行 运 
算 时 ,我 们 规定 必须 把 整 型 量 先 转换 为 实 型 量 。 在 这 种 混合 运算 的 情况 下 ,每 个 非 终 结 符 的 语 
义 值 必须 添加 类 型 信息 。 我 们 用 MODE 表示 非 终 结 符 下 的 类 型 信息 ,E。MODE 的 值 或 
为 r( 实 型 ) 或 为 int( 整 型 )。 于 是 ,对 应 产生 式 EE op E2 的 语义 动作 中 关于 下 。 MODE 
的 语义 规则 可 定义 为 : 
{IF EY .+ MODE=int AND E®? +. MODE=int 
THEN E. MODE:=int ELSE E* MODE:=r) 
从 而 ,关于 E>EW op E'? 的 语义 子 程 序 应 做 修改 ,使 得 必要 时 能 够 产生 对 运算 量 进行 类 型 转 
换 的 四 元 式 。 四 元 式 (itr, Ai, 一,T) 意 味 着 把 整 型 量 A 转换 成 实 型 量 ,结果 存 于 工 中 。 此 
外 ,对 运算 符 应 指出 相应 的 类 型 ,并 说 明 是 定点 还 是 浮 点 运算 。 例 如 ,假定 输入 串 为 
X:=Y++Ix]J 
其 中 ,X,Y 为 实 型 ;I,J 为 整 型 。 这 个 赋值 句 产 生 的 四 元 式 为 : 
Cw Ts Ty 
(itr,Ti ,一 ,Tz) 
[mi A VR VY 
(:=, Ts,—,X) 
关于 产生 式 E>E op E'? 的 语义 子 程 序 更 为 具体 的 描述 是 : 
T:=NEWTEMP:; 
IF EY .+ MODE=int AND E®? .+ MODE=int THEN 
BEGIN GEN(opi,E®™ » PLACE,E'? . PLACE,T); 
E. MODE:=int 
END 
ELSE IF EY + MODE=r AND E2 .+ MODE=r THEN 
BEGIN GEN(op'.E® »« PLACE.E® .+ PLACE,T); 
E. MODE:=r 
END 
ELSE IF EY + MODE=int/ * AND E2 + MODE=r* /THEN 
BEGIN U:=NEWTEMP; 
GEN(itr,ED。PLACE, 一 ,U); 
GEN(op',U,E® .« PLACE,T); 
E* MODE:=r 
END 
ELSE/* EV .+ MODE=r AND E® . MODE=int*/ 
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BEGIN U:=NEWTEMP; 
GEN (itr,E22。PLACE, 一 ,U); 
GEN(op",E0。PLACE,U,T); 
E. MODE:=r 
END 
E* PLACE:=T; /x* 工 各 是 临时 变量 */ 
此 外 ,关于 产生 式 E>i 的 语义 子 程序 应 修改 为 : 
{E。 PLACE:=ENTRY(i);E. MODE:=Lookup(ENTRY(i))} 
其 中 ,Lookup(ENTRY(i)) 是 函数 过 程 ,根据 变量 i 的 符号 表 入 口 地 址 查 得 该 变量 i 的 类 型 ， 
返回 值 为 变量 类 型 。 
在 上 述 语义 规则 中 , 非 终结 符 正 的 语义 值 除 了 含有 下 .PLACE 外 还 含有 下 。MODE ,这 
两 方面 的 信息 都 必须 保存 在 语义 栈 中 。 如 果 运 算 量 的 类 型 增多 ,语义 子 程序 需要 区 别 的 情形 
也 就 迅速 增多 ,从 而 使 语义 子 程序 变 得 累 獒 不堪。 因此 ,在 运算 量 的 类 型 比较 多 的 情况 下 , 仔 
细 推 项 语义 规则 是 一 件 重要 的 事情 。 


7.3 布尔 表达 式 的 翻译 


在 程序 设计 语言 中 ,布尔 表达 式 的 作用 有 两 个 :一 是 用 作 控 制 语句 (如 让 语句 或 while 语 
句 ) 中 的 条 件 表达 式 , 二 是 用 于 好 辑 赋值 语句 中 的 布尔 表达 式 演算 。 布 尔 表达 式 由 布尔 算 符 
(人 A、V 、 一 ) 作 用 于 布尔 变量 (或 常量 ) 或 关系 表达 式 而 形成 。 关 系 表 达 式 的 形式 是 E2 rop 
E'2 ,其 中 rop 是 关系 算 符 ( 如 二 .二 = =、 二 二、 > 一 、 >),E0 和 E2 为 算术 表达 式 。 为 简单 
起 见 ,我 们 将 布尔 表达 式 文法 简化 成 如 下 形式 : 

G(B):E>EAE| EVE| -EI|(E)| i | E, rop E, 

其 中 ,i 为 布尔 变量 (或 常量 ),E, 为 算术 表达 式 , 可 以 证 明 这 个 文法 也 是 二 义 文法 。 按 照常 规 
的 布尔 算 符 优 先 顺序 为 :"、A、V ,信和 V 服从 左 结合 律 。 所 有 关系 算 符 优先 级 相同 ,并 无 结 
合 关系 , 它 的 优先 级 高 于 布尔 算 符 , 但 低 于 算术 算 符 。 按 照 这 样 的 YACC 说 明 ,当然 也 可 为 G 
(B) 构 造 LR 分 析 表 。 

下 面 针 对 两 种 不 同 用 途 ,讨论 两 种 不 同 翻译 方法 。 


7.3.1 布尔 表达 式 在 逻辑 演算 中 的 翻译 


布尔 表达 式 演算 与 算术 表达 式 计 算 非 常 相似 ,例如 布尔 式 1V(-0A0)V0 的 计算 过 
程 是 : 
1V(”0AO)V0 
= 王 1V(1AO)V0 
=1VOV0=1V0=1 
若 要 翻译 成 中 间 代 码 ,也 可 以 仿照 算术 表达 式 翻译 方法 ,为 每 个 产生 式 配 上 相应 语义 子 程 
序 ,其 描述 如 下 : 
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产生 式 语义 子 程序 

(1) E>EY rop E2 {T:=NEWTEMP; 
GEN(rop,E®Y .« PLACE,E®? . PLACE,T);E. PLACE:=T} 

(2) E>EY bop E®? {T,;=NEWTEMP:; 
GEN(bop,E® .« PLACE,E® .« PLACE,T);E. PLACE:=T} 


(9 EE” 1T;=NEWTEMP:; 

GEN(- ,EY .« PLACE,—,T);E. PLACE:=T} 
(a EE {E* PLACE:=E® 。 PLACE} 
(5) Ei {E. PLACE: =ENTRY'()} 


例如 ,考虑 布尔 式 X+TY>ZVAA(C”BYVC) 的 翻译 ,因为 其 中 有 算术 表达 式 , 所 以 在 构造 
LR 分 析 表 时 必须 将 算术 表达 式 文法 与 布尔 表达 式 文 法 一 起 考虑 。 假 定 G(B) 文 法 的 LR 分 析 
表 已 构造 好 ,那么 该 布尔 式 翻 译 成 的 四 元 式 序列 应 该 是 : 


ORDER RESULT 


《lh T 


(2) Ta: 


(3) Ts 


(4) 3 > T, 


(5) Ts 


(6) Te 


从 上 面 翻译 过 程 的 结果 看 ,用 LR 分 析 和 翻译 与 人 工 翻译 结果 完全 相同 ,我 们 只 要 遵守 如 
下 规则 :从 左 至 右 扫描 输入 符号 串 ,比较 左右 两 个 算 符 , 若 右 算 符 的 优先 级 低 于 左 算 符 ,那么 左 
算 符 就 可 归 约 并 生成 相应 四 元 式 ,然后 继续 扫描 输入 符号 串 ; 若 右 算 符 的 优先 级 高 于 左 算 符 ， 
则 比较 后 面 两 个 算 符 , 即 把 原 右 算 符 当 左 算 符 ,再 读 入 下 一 算 符 进行 比较 ,直至 右 算 符 比 左 算 
符 优先 级 低 时 ,就 对 左 算 符 归 约 并 生成 左 算 符 的 相应 四 元 式 。 重复 上 述 过 程 ,直至 所 有 算 符 都 
处 理 完毕 。 今 后 ,我 们 就 不 再 提 及 构造 LR 分 析 表 和 LR 分 析 过 程 ,但 实际 上 都 是 在 语法 制导 
下 翻译 的 。 


7.3.2 控制 语句 中 布尔 式 的 翻译 


从 7.3.1 节 的 布尔 表达 式 文 法 及 其 翻译 中 间 代 码 的 算法 来 看 .其 翻译 质量 并 不 高 ,根据 布 
尔 表达 式 的 特点 ,完全 可 以 简化 。 例 如 ,假定 要 计算 AV B, 如 果 已 计算 出 A 的 值 为 1, 那么 就 
无 需 再 计算 B, 因 为 不 管 B 值 是 什么 ,A VB 总 是 1; 同 理 , 计 算 A 人 人 B. 若 发 现 A 是 0, 也 不 要 知 
道 BB 是 什么 ,AAB 总 是 0。 也 就 是 说 ,可 以 用 if-then-else 来 解释 人 、V 和 一 。 即 : 

把 AVB 人 解释 成 if A then true else B; 

把 AAB 解 释 成 if A then B else false; 

把 一 A 解释 成 if A then false else true。 

在 控制 语句 中 的 布尔 式 处 理 更 简单 , 它 并 不 需要 计算 表达 式 的 值 , 它 的 作用 仅 在 于 控制 程 
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序 流向 ,这 时 用 if-then-else 来 解释 人 、V 、” 显得 更 方便 。 
例如 ,条 件 语句 if E then Selse S 中 的 布尔 表达 式 
E 仅 用 于 选择 是 做 语句 S, 还 是 语句 S: :如 果 下 值 为 真 ， 
就 转向 Si 语句 处 理 ,Si, 语句 处 理 完 , 有 一 条 无 条 件 转移 
语句 跳 过 S, 语句 而 转 到 后 继 语句 处 理 ;车 下 值 为 假 ,就 跳 8 的 代码 序列 
过 Si 语句 而 转向 S。 语句 处 理 。 条 件 语句 翻译 成 的 代码 上 
结构 如 图 7. 2 所 示 ,E 为 真 就 转向 S, ,E 为 假 就 转向 S,。 Ls 代码 序列 


E 的 代码 序列 


所 以 布尔 式 下 翻译 成 仅 含 下 述 三 种 形式 的 四 元 式 : 本 
Gnz,Ai, 一 ,P), 关 Ai 为 真 ( 非 0), 则 转向 第 P 个 图 7.2 条 件 语句 代码 结构 
四 元 式 ; 
加 (jb,Al ,As ,P) , 若 关系 A19A, 为 真 , 则 转向 第 P 个 四 元 式 , 其 中 0 为 关系 算 符 ; 
@(j, 一 ,一 ,P) ,无 条 件 转向 P 四 元 式 。 


这 些 四 元 式 都 是 转移 四 元 式 , 其 中 与 的 真 假 值 相对 应 的 分 为 * 真 出 口 "? 和 “ 假 出 口 ” 两 类 
四 元 式 。 其 中 P 为 出 口 的 四 元 式 的 序号 。 
例如 ,可 把 语句 : 
if AV B=D then S, else S,; 


翻译 成 四 元 式 序列 

(1) (jnz,A,—,(5))s 真 出 口 ,A 为 真 即 E 为 真 , 转 S 代码 段 
(2) (j ,一 ,一 ,(3)); A 为 假 , 要 看 后 继 关系 表达 式 的 值 才 能 决定 下 值 
(3 0G, B,D 5)); 真 出 口 ,关系 表达 式 为 真 即 三 为 真 , 转 Si 
(4) (j ,一 ,一 ,(p 十 1)); 假 出 口 ,表示 E 为 假 时 转 S 代码 段 
(5) Si 语句 的 第 一 句 四 元 式 

Ee Si 代码 段 
(p) (j, 一 ,一 ,(q)); 无 条 件 跳 过 S 代码 段 , 转 后 继 语句 翻译 
(p 十 1) Ss 语句 的 第 一 句 四 元 式 

S; 代码 段 


(q) 后 继 语句 的 翻译 代码 

由 上 例 可 见 , 四 元 式 (1) 一 (4) 是 对 应 于 布尔 式 AVB<D 而 产生 的 中 间 代 码 , 它 都 翻译 成 
转移 四 元 式 , 原 有 布尔 运算 不 见 了 。 变 量 A 为 “ 真 ”就 表示 EE 也 为 * 真 ”, 所 以 (1) 式 为 真 出 口 ; 
关系 B<D 为 真 ,也 表示 下 为 真 ,所 以 (3) 式 也 为 真 出 口 ; 而 A 为 假 并 不 表示 EE 为 假 ,必须 B 一 
D 也 为 假 时 才 为 假 , 所 以 假 出 口上 只 有 (4) 式 。 

在 翻译 时 ,每 个 布尔 量 译 成 两 个 四 元 式 ,一 个 表示 该 布尔 量 为 真 , 另 一 个 表示 为 假 。 这 种 
翻译 质量 并 不 高 ,有 多 余 四 元 式 , 如 (2) 式 显然 是 不 需要 的 ,而 (3) 和 (4) 式 也 不 难 合并 为 (j 三 ， 
B,D,P 十 1)。 这 些 是 优化 问题 , 暂 不 讨论 。 在 自 下 而 上 分 析 过 程 中 ,一 个 布尔 式 的 真 假 出 口 四 
元 式 的 转向 序号 往往 不 能 在 产生 转移 四 元 式 时 就 填 上 。 例如 ,对 于 AV B=D, 当 把 A 归 约 为 
E( 用 E> 让 时 应 产生 四 元 式 (jnz,A, 一 ,P), 但 由 于 A 之 后 的 输入 符号 尚未 处 理 , 它 们 相应 的 
四 元 式 也 未 产生 ,因此 这 个 P 是 什么 暂时 还 不 知道 。 我 们 只 好 把 这 个 待 填 的 四 元 式 序号 作为 
E 的 语义 值 暂时 保存 起 来 ,等 到 该 四 元 式 出 口 明 朗 了 再 行 回填 。 另 外 ,由 上 例 可 见 , 真 出 口 或 
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假 出 口 的 四 元 式 可 能 不 止 一 个 ,这 就 要 求 我 们 对 它们 进行 拉链 以 链接 在 一 起 ,等 到 出 口 知道 了 
再 一 起 回填 。 
为 了 完成 上 面 介绍 的 翻译 工作 ,要 对 文法 G(B) 做 适当 改写 。 例 如 ,产生 式 E>EY VE 
在 产生 式 EY 一 i 归 约 时 翻译 成 两 个 四 元 式 , 一 个 表示 真 转移 ,一 个 表示 假 转 移 。 其 中 , 假 转移 
的 目的 地 是 “V "之 后 ,也 就 是 说 读 了 “V ”之 后 就 可 回填 假 出 口 ,这 就 要 求 有 E" 习 EV 这 样 的 产 
生 式 , 当 它 归 约 时 能 做 回填 的 语义 子 程序 。 也 即 把 产生 式 E>E V _E2 改 写成， 
E>E'E®? ,E>EVV 
同样 把 E>EP 和信 E 改 写成 : 
E>E*E® ,E^ 一 ED A 
这 样 ,G(B) 文 法 改写 成 G'(B) 文 法 : 
E>E*E| EE| -EI|(E)| il E, rop E。 
E*—>EA 
E'>EV 
为 了 实现 对 转移 四 元 式 的 拉链 与 回填 ,为 每 个 非 终 结 符 E,E*,E"” 赋予 两 个 语义 值 :E。 
TC,E。FC, 它 们 分 别 记录 非 终 结 符 EE 需 回填 真 、 假 出 口 四 元 式 的 序号 所 构成 的 链 。 这 个 语义 
值 也 可 放 在 语义 栈 内 ,如 图 7. 3 所 示 。 


| | A | | | | ToP 
Ee n n+1 
ss [|* |- | - 
S SYM PLACE TC FC 
分 析 栈 语义 栈 


7.3 下 推 栈 增加 TC,FC 栏 


图 中 增加 了 TC 栏 与 FC 栏 , 其 中 表示 E9 为 真 时 对 应 的 四 元 式 序号 ,n 十 1 表示 Em 为 
假 时 对 应 的 四 元 式 序号 。 臂 如 A 归 约 为 EV ,产生 的 四 元 式 为 
(Cn) (jnz,A,— .0) 
(Cn 十 1) (j, 一 ,一 ,0) 
并 将 n 填 人 EDD。.TC 栏 ,n 十 1 填 人 ED。FC 栏 。 
下 面 给 出 文法 G(B) 的 每 个 产生 式 相 应 的 语义 子 程序 。 
产生 式 语义 子 程序 
(1) E>i {E. TC:=NXQ;E . FC:=NXQ+1; 
GEN(jnz,ENTRY(i) ,一 ,0); 
GENG ,一 ,一 ,0)} 
(2) E>ED rop E® {E. TC:=NXQ;E . FC:=NXQ+1; 
GEN (jrop,E!Y + PLACE,E‘? .« PLACE,0); 
GEN (,—,— ,0)} 
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(3) 和 你 {E。TC:= 王 ED。TC;E。FC:= 王 ED。FC) 


(4) 下 一 一 上 {E» TC:=E® 。 FC;E* FC:=E® 。 TC} 
0 Dd {BACKPATCH(E®Y . TC, NXQ); 

Es* 。 FC:=EY 。 FC} 
(6) E>E*E® {E* TC:=E® . TC 

E°* FC:=MERG (E^。FC,E22。FC)} 
Wy EE {BACKPATCH(E®Y «FC,NXQ); 

E’ . TC:=E® . TC} 
(8) E>E’E'® {E* FC:=E®? » FC; 


E. TC:=MERG(E’ . TC,E®? . TC)} 
其 中 : 
ONXGQ 为 下 一 个 将 要 建立 的 四 元 式 序号 , 即 NXQ 二 当前 四 元 式 序号 十 1; 
@BACKPATCH(p,t) 称 作 回填 过 程 ,把 以 p 为 链 首 的 所 链接 的 每 个 待 回 填 四 元 式 的 第 
四 段 均 填 以 t, 这 个 过 程 较 形 式 化 的 算法 如 下 : 
PROCEDURE BACKPATCH(p.,t) 


BEGIN 
Q:=p; /x* QQ 为 工作 单元 */ 
WHILE Q 隆 0 DO 。” ”/* 链 尚未 填 完 x/ 
BEGIN 


q: 王 四 元 式 Q 的 第 四 段 的 内 容 ; 

把 t 填 入 四 元 式 Q 的 第 四 段 ; 

Q:=q 

END 
END; 
算法 基本 思想 是 从 链 头 填 起 , 边 找 边 填 , 直 至 填 到 链 尾 为 止 。 
@@MERG(pi,p:) 称 作 并 和 链 函数 过 程 ,把 以 pl ,ps 为 链 头 的 两 条 链 并 成 一 条 链 , 其 中 ps 可 
为 空 链 , 并 链 之 后 链 头 送 MERG 返回 。 
Pi 当 pz 一 0 /* pz 为 空 链 关 / 


全 4 一 
合并 后 的 链 首 ps 当 ps20 
算法 如 下 : 
FUNCTION MERG(Ppi ,pz); 
BEGIN 
IF ps=0 THEN MERG:=p: ELSE 
BEGIN 
pD: 王 pz; /*P 为 工作 单元 */ 


WHILE 四 元 式 p 的 第 四 段 的 内 容 不 为 0 DO 
Pp: 二 四 元 式 p 的 第 四 段 的 内 容 ; 
把 pi 填 进 四 元 式 p 的 第 四 段 ; 
MERG =p,， 
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END 
END; 

算法 的 基本 思想 是 找 ps 的 链 尾 ,然后 将 p; 连接 到 ps 的 链 尾 ,构成 一 条 链 。 

例如 ,将 布尔 式 AABV ”C 在 语法 制导 下 翻译 成 四 元 式 的 过 程 见 表 7. 3, 共 产生 六 条 转 
移 四 元 式 ,并 留 下 待 填 的 两 条 链 : 真 链 头 在 (6) 式 、 假 链 头 在 (5) 式 。 为 了 便于 阅读 ,四 元 式 的 第 
四 段 加 括号 的 内 容 表 示 转 移 序 号 ,不 加 括号 的 内 容 表示 待 填 的 链 。 

表 7.3 布尔 式 翻译 过 程 
INPUT QUADRUPLE 


AABV -C# 


ABV -7C# 


ABV -7C# (nz，A, 一 ，(3)) 


BV 7-C# (j=» =—=» (5)) 


BV -C# 
V-C# 
V -=-C# 一 一 (3) (jnz,B, 一 ,0) 


V -nC# 一 (3) 全 "一 7 一 吹 5) 


-了 C# 一 《3 一 
7-C# | #E 一 (3) 
C# | #E 一 = 
亲 | : 非 本 "< (= 


#E ”下 —(3)—(5) (jnz',C, 一 ,0) 


# 
# | #EE 一 (3)(6) (一 ,一 ,3) 
# 


#E 一 (6) 


识别 成 功 


[ 例 7. 1 按 控制 语句 要 求 翻译 布尔 式 AV B 二 CAD=E 成 四 元 式 序列 。 
解 : (1) (jnz,A, 一 ,0) 
(2) (j, 一 ,一 ,(3)) 
(3) <,B,C,(5)) 
(4) (j, 一 ,一 ,0) 
TC 头 一 (5) G=,D,E,1) 
FC 头 一 (6) (j, 一 ,一 ,4) 
注 :(5) 为 待 填 假 链 头 ,(6 ) 为 待 填 真 链 头 。 


7.4 控制 语句 的 翻译 


控制 语句 很 多 .有 条 件 语句 ,无条件 转移 语句 .迭代 语 句 、 循 环 语句 还 有 分 情 语句 等 。 下 面 
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分 别 介绍 。 


7.4.1 标号 和 转移 语句 


多 数 程序 设计 语言 使 用 GOTO 语句 实现 无 条 件 转移 ,为 了 确定 转移 的 目的 语句 ,需要 给 
语句 赋予 标号 。 一 个 带 标号 的 语句 形式 是 “L:S”, 其 中 世 称 标号 , 它 可 以 是 标识 符 也 可 以 是 语 
句号 (数字 串 ) ,如 果 语 句 S 生成 一 系列 四 元 式 , 那 么 工 的 值 应 该 是 S 语句 所 对 应 四 元 式 序列 
的 第 一 个 四 元 式 序号 。 我 们 称 这 种 语句 形式 对 标号 而 言 是 已 定义 的 。 

标号 在 程序 中 有 两 种 不 同 的 出 现 顺序 : 

(1) 先 定义 后 使 用 , 形 如 : 

LsS 


GOTOL 
标号 与 GOTO 语句 的 翻译 是 借助 于 符号 表 ( 图 7.4) 进 行 的。 当先 遇 到 定义 性 标号 语句 ， 
即将 工 归 约 为 label( 产 生 式 label->i:) 时 ,将 *L? 填 进 符 号 表 , 并 且 CAT 栏 填 * 标 号 ”, 定 义 否 
栏 填 * 已 ”, 同 时 将 S 对 应 的 入 口 四 元 式 序号 “S$S。 QUAD”( 即 NXQ) 填 在 地 址 栏 , 见 图 7.4 所 示 
符号 表 的 标识 符 "L” 这 一 行 ,然后 当 遇 到 GOTO L 语句 时 , 便 产生 四 元 式 (j, 一 ,一 ,p), 其 中 
p=S. QUAD, 


INFORMATION 


定义 否 tt 四 元 式 


(Pp) Gj, —, —, 站 


(D0, -, -, p) 


(DG，-， ee 


图 7.4 符号 表 中 标号 
(2) 先 使 用 后 定义 , 形 如 : 
GOTOL 
GOTOL’ 
GOTOL 
Lie 
先 遇 到 使 用 性 标号 L' 时 ,因为 它 还 没有 定义 ,所 以 在 符号 表 中 填 和 人 “L'”,CAT 栏 填 “ 标 


号 ”, 定 义 否 栏 填 “ 未 ”, 地 址 栏 暂 填 即将 生成 的 四 元 式 序 号 “p”, 然 后 生成 四 元 式 : 
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(BY Cas 
接着 又 遇 到 使 用 性 标号 L', 这 时 仅 将 “L'” 这 一 行 的 地 址 栏 内 容 修 改 为 即将 生成 的 四 元 式 序号 
“q”, 并 生成 四 元 式 : 

(q) 0 一 一 ,yp) 
其 中 ,第 四 段 的 p 取 自 符号 表 的 地 址 栏 在 修改 前 的 内 容 。 若 后 面 又 遇 上 使 用 性 标号 L' 则 同上 
述 生成 : 

Cry Ua—=+ = 050 
其 中 ,“r” 填 在 地 址 栏 , 即 地 址 这 一 栏 始终 是 填 未 定义 标号 的 转移 语句 的 链 首 ,而 把 转移 语句 本 
身 拉 成 一 条 链 ( 其 形状 见 图 7. 4 中 *L'” 这 一 行 )。 等 到 定义 性 语句 *L':S” 出 现时 ,用 S 语句 所 
对 应 的 第 一 个 四 元 式 序号 来 回填 这 个 链 , 即 调用 BACKPATCH 过 程 。 请 注意 ,这 时 的 链 首 是 
在 符号 表 的 地 址 栏 内 。 

稍微 形式 化 一 点 描述 的 语义 子 程序 如 下 : 


产生 式 语义 子 程序 

S>GOTOL { 查 符 号 表 , 若 L 不 在 表 中 ,在 表 中 建 “L” 这 一 行 ,CAT 栏 置 “ 标 
号 ”, 定 义 否 栏 填 “ 未 ”,L. 地 址 := 二 NXQ;GEN(j, 一 ,一 ,0); 若 LL 已 
在 表 中 ,但 未 定义 , 则 p:=L. 地 址 ,L. 地 址 :二 NXQ,GEN(j, 一 ,一 ， 
p); 若 工 已 在 表 中 , 且 已 定义 , 则 p:=L. 地 址 ;GEN(j ,一 ,一 ,p))} 

Label>L.: { 查 符号 表 , 若 L 不 在 表 中 , 则 建 L 这 一 行 ,CAT 栏 置 “标号 ”, 定 义 


否 栏 填 “ 已 ”,L. 地 址 ;二 NXQ; 若 工 已 在 表 中 ,但 CAT 关 “标号 ”或 
已 定义 否 ==“ 已 ”, 则 出 错 ;否则 ,将 定义 否 改 为 “已 ”。gq: 二 L. 地 址 ， 
BACKPATCH (gq, NXQ),L. 地 址 := 二 NXQ) 


7.4.2 ”IF 语句 的 翻译 


描述 IF 语句 的 文法 如 下 : 
Sif E then SY 


Sif E then SO else S®? 
在 进行 自 左 至 右 扫描 , 自 下 而 上 分 析 时 ,IF 语句 的 翻译 大 致 可 以 想象 成 如 下 过 程 ， 
(1) 完成 布尔 式 EE 的 翻译 ,获得 一 组 四 元 式 , 并 留 下 两 个 待 填 的 语义 值 E. TC 和 EFC。 
(2) 接着 扫描 了 then, 这 时 获得 布尔 式 下 的 真 出 口 , 即 可 用 BACKPATCH(E* TC， 
NXQ) 过 程 来 回填 。 但 假 出 口 E* FC 尚 不 知 ,还 得 往 后 传递 。 
(3) 接着 翻译 SW ,S2 可 以 是 IF 语句 也 可 以 是 其 他 语句 ,也 就 是 说 语句 是 可 以 嵌 套 的 ,不 
管 怎样 , 它 总 可 以 递归 地 调用 语句 翻译 过 程 来 完成 ,并 译 成 一 组 四 元 式 序列 。 
(4) 遇 到 else, 表 示 S2 语句 已 翻译 结束 ,应 无 条 件 地 生成 一 条 COTO 四 元 式 (j, 一 ,一 ， 
0) , 转 到 S2 语 名 之 后 ,表示 这 个 IF 语句 已 执行 结束 。 但 是 ,在 完成 S2 的 翻译 之 前 ,这 条 无 条 
件 转移 指令 的 转移 目标 是 不 知道 的 ,甚至 在 翻译 完 S2 之 后 ,这 条 转移 指令 的 转移 目标 仍然 无 
法 确定 。 这 种 情况 是 由 于 语句 的 柑 套 性 所 决定 的 。 例 如 ,对 于 下 面 的 语句 : 
if Ei, then if E, then Si else S, else S; 
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在 Si 的 代码 生成 之 后 的 那 条 无 条 件 转移 指令 不 仅 应 跳 过 Ss 而 且 还 应 跳 过 S;。 因 为 S 的 代 
码 执行 完成 就 表示 整个 IF 语句 也 执行 结束 ,所 以 该 转移 指令 的 转移 目标 只 能 等 到 出 口 明确 了 
才能 回填 ,这 时 应 把 该 待 填 的 四 元 式 序号 并 链 后 存 于 与 代表 整个 语句 的 非 终 结 符 S 相关 联 的 
语义 栈 S. CHAIN 中 。 同 时 , 遇 到 else 还 表示 已 获得 布尔 式 下 的 假 出 口 ,可 以 用 BACK- 
PATCHCE .FC,NXQ) 返 填 下 的 假 出 口 链 ; 若 不 遇 else(IF 语句 的 第 一 种 句 型 ) ,那么 布尔 式 
假 出 口 与 S2 的 结束 出 口 都 表示 IF 语句 的 结束 ,结束 后 的 出 口 如 上 述 尚未 知 ,应 将 它们 并 链 ， 
链 首 也 置 于 S.CHAIN 中 。 

(5) 翻译 S2 语句 成 四 元 式 序列 。S2 执行 之 后 也 表示 该 IF 语句 结束 ,所 以 它 与 SV 结束 
是 一 样 的 ,为 此 将 S2 的 结束 出 口 与 So 的 出 口 相 并 链 , 链 首 置 于 S。CHAIN 中 。 

总 之 ,条 件 语 句 的 翻译 ,除了 相应 生成 下 ,So ,Se2 的 四 元 式 序列 外 ,最 后 还 剩 下 一 个 待 填 
的 语句 链 , 其 链 首 存 于 S. CHAIN 中 , 待 到 出 口 明确 了 按 此 链 首 进行 回填 。 

由 上 述 的 分 析 可 知 ,为 了 语义 动作 的 需要 ,要 改写 产生 式 , 并 配置 如 下 相应 语义 子 程序 ， 

Sif E then SO else S2 改写 为 : 


Cif E then 

T—>C SY else 

ST S®? 

Sif E then SO 改写 为 : 

Cif E then 

S>C Se 

产生 式 语义 子 程序 

(1) Cif E then {BACKPATCH(E. TC,NXQ);C .+ CHAIN=E .。 FC)} 

(2) TC SG else {q:=NXQ;GEN(j,—,— ,0); 
BACKPATCH(GC。CHAIN,NXQ); /* 回填 E.。 FCx/ 
T*» CHAIN:=MERG(S® . CHAIN,q)} 

(37 ST Se {S. CHAIN:=MERG(T . CHAIN,S'? . CHAIN)} 

(SC LS {S。CHAIN: 王 MERG(C。CHAIN,SD。CHAIN)) 


当 计 Ethen 归 约 为 C 时 ,布尔 式 王 已 不 在 栈 内 了 ,所 以 它 的 语义 值 E。FC 也 不 复 存在 ， 
但 下。FC 尚未 回填 ,可 将 它 暂 存 于 非 终结 符 C 的 CHAIN 中 ,通过 后 来 的 拉链 回填 C。 
CHAIN ,实际 上 就 是 对 下 。FC 的 回填 。 
语句 翻译 完了 ,但 S.CHAIN 尚未 回填 ,待遇 到 “;” 或 “end” 时 才 用 NXQ 回填 ,否则 还 只 
能 认为 它 是 幅 套 句 中 的 子 句 ,还 要 继续 拉链 。 
[ 例 7. 2] 试 翻译 条 件 嵌 套 语句 
if a then if b then A:=2 else A:=3 else if c then A:=4 else A:=5 
成 四 元 式 序列 。 其 中 else 与 其 前 面 尚未 匹配 的 then 相 匹 配 。 
解 :仍然 按 语法 制导 翻译 ,但 只 写 出 结果 的 四 元 式 序 列 及 其 相应 的 结构 框 ( 图 7. 5)。 
CY (jzsas— aMC3)Y 
《2 一 5 一动 的 沙 
[32 cinzsbs— NC) 
CY (js == V7 
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(5) (:=,2,—,A) 0 


(6) Gi,—,—.0) 2 

Se G) 
(7) (一 ,3 一,A) 的 
(8) (j, 一 ,一 ,6) 6) 


(9) (jnzyc, 一 'QR(C11)) (0) 


(10) (Gj ,一 ,一 ,R(13)) OLSA-3) 上 


(8) 


(LD C= [0G— 
(12) (j, 一 ,一 ,Q8) (10) 
(13) (: 王 ,5 ,一 ,A) 本 有 
最 后 ,S. CHAIN 中 存放 (12) 号 为 待 填 的 语句 链 链 (2) 一 一 一 
首 的 四 元 式 序号 。 (9 SA=53 上 一 
在 扫描 到 第 一 个 else 之 后 , 按 语义 动作 做 三 件 事 : 产 PS CHAIN 
生 转 移 四 元 式 ,这 就 是 (6) 号 四 元 式 ; 填 布 尔 式 b 的 假 链 ， 图 7.5 条 件 语句 代码 结构 
即 用 (7) 回 填 (4) 号 四 元 式 ; 将 (6) 号 四 元 式 与 S 语句 链 进行 并 链 , 因 为 S 语句 是 赋值 语句 没 
有 链 ,结果 还 是 (6) 号 本 身 。 扫 描 到 第 二 个 else 之 后 ,正常 完成 下 列 三 个 语义 动作 :产生 (8) 号 
四 元 式 ; 回 填 布 尔 式 a 的 假 链 ; 并 链 ,(6) 号 并 人 (8) 号 链 , 链 首 在 (8) 号 。 扫 描 到 第 三 个 else 之 
后 ,同样 也 完成 产生 (12) 号 四 元 式 ;回填 布尔 式 c 的 假 链 , 即 用 NXQ 回填 (10) 号 四 元 式 ; 并 链 
( 因 S; 为 赋值 语句 ,无 链 可 并 ,不 做 )。 最 后 将 (8) 号 并 入 (12) 号 链 , 链 首 在 (12) 号 ,并 将 它 作 为 
整个 语句 的 语句 链 存 于 S， CHAIN 中 。 


7.4.3 WHILE 语句 的 翻译 


WHILE 语句 的 文法 如 下 : 
S—>while E do SY 

该 语句 翻译 成 四 元 式 的 结构 如 图 7. 6 所 示 。 翻 译 的 大 致 过 
程 是 : 

(1) 翻译 下 代码 段 ,并 留 两 个 待 填 的 E。TC,E 
FC 链 ; 

(2) 扫描 过 do 之 后 就 可 以 回填 ETC; 图 7.6 WHILE 语句 代码 结构 

(3) 翻译 SP 语句 成 代码 段 ,SV 语句 翻译 之 后 ,应 无 条 件 转 到 E 代码 段 的 第 一 条 四 元 式 ， 
车 SW 有 语句 链 , 也 应 转 到 下 代码 段 第 一 条 四 元 式 。 为 此 ,在 开始 翻译 WHILE 语句 时 ,应 留 
下 第 一 条 四 元 式 序号 ,以 备 S" 语 句 翻译 结束 时 用 。 而 布尔 式 为 假 ,意味 着 WHILE 语句 的 结 
束 , 其 出 口 在 哪里 ? 暂时 还 不 知道 ,因为 WHILE 语句 可 能 是 条 件 嵌 套 语句 中 的 一 个 子 句 ,所 
以 把 布尔 式 待 填 假 链 当 作 语句 链 留 在 S$。CHAIN 中 ,以 便 以 后 返 填 。 

根据 上 述 翻 译 过 程 ,可 以 改写 WHILE 语句 文法 并 给 出 相应 语义 子 程序 如 下 : 


E 的 代码 段 ] 
S" 的 代码 段 


S* CHAIN 


产生 式 语义 子 程序 
W 一 while {W .QUAD:=NXQ)} 
Wi 一 WE do {BACKPATCHCE。TC, NXQ); 


W:. CHAIN:=E. FC; 
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W! . QUAD:=W .QUAD} 
S>W!:S® {BACKPATCH(S® . CHAIN,W': .QUAD) 
GEN(j,—,—,W!: . QUAD} 
S.CHAIN:=W!:. CHAIN} 
其 中 ,W， QUAD 是 与 非 终结 符 W 相连 的 另 一 个 语义 值 , 它 存放 后 面 要 使 用 的 四 元 式 序号 。 
[ 例 7. 3] 翻译 while(A 二 B)do if(C<D)then X:=Y 十 Z; 语 句 成 四 元 式 序列 。 
解 :翻译 结果 如 下 : 
(100) (=,A,B,(102)) 
(LOlY Or=y=( 0 
(102) (j<,C,D,(104)) 
(103) (j;—;—;(100)) 
(104) (十 ,Y,Z,T1) 
(105) (:;=,T,,—,X) 
(106) (j ,一 ,一 ,(100)) 
该 源 语句 最 后 有 ”;”, 所 以 可 以 回填 语句 链 (101) 号 , 即 用 (107) 填 (101) 号 的 第 四 段 。 


7.4.4 REPEAT 语句 的 翻译 
REPEAT 语句 的 文法 如 下 : 


S—>repeat SV until 下 


它 翻译 成 四 元 式 的 结构 如 图 7. 7 所 示 。 翻 译 的 大 致 过 


“FC 
程 是 : 
01) 翻译 So 的 代码 段 , 留 下 待 回填 的 语句 链 So 。 ER He.tc 
Ee 
(2) 扫描 过 until 之 后 ,就 可 以 回填 SY .CHAIN; Se CHAIN 


(3) 翻译 下 代码 段 , 并 留 两 个 待 填 的 EE TC 与 E. FC 图 7.7 REPEAT 语句 代码 结构 
链 。E。FC 应 无 条 件 回 到 本 REPEAT 语句 的 第 一 条 四 元 式 , 因 此 它 与 WHILE 语句 翻译 时 
一 样 , 在 进入 本 REPEAT 翻译 时 ,应 将 它 的 四 元 式 序 号 留 下 来 ,以 备 王 代码 段 生成 后 使 用 ,而 
把 EE。TC 作为 整个 语句 结束 后 的 语句 链 , 留 在 S "CHAIN 中 待 回填 。 

根据 上 述 翻译 过 程 可 以 改写 REPEAT 语句 的 文法 ,并 给 出 相应 的 语义 子 程序 : 


产生 式 语义 子 程序 

(1) R-~repeat {R. QUAD.:=NXQ} 

(2) U—>RSY until {U*: QUAD:=R. QUAD:; 
BACKPATCH(SY . CHAIN, NXQ)} 

(3) S-~UE {BACKPATCH(E . FC,U . QUAD) 


S.CHAIN:.=E. TC} 
例如 , 原 语句 repeat X: 王 X 二 1 until X 盖 Y ;翻译 成 四 元 式 为 : 
(m) Ce 
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Cm C= 
(m+2) (>,X,Y,(m++4)) 
Cm 3 C= 7 一式 吉 ) 


7.4.5 循环 FOR 语句 的 翻译 


许多 程序 语言 具有 下 面 形式 的 循环 语句 : 
Sfor i:;=E®D step E®® until E’? do SY 
但 有 些 语言 外 表 形 式 不 同 ,如 FORTRAN 写作 S>DO 标号 i 二 EV ,E® ,ES ;还 有 些 语言 形 
式 略 有 变化 ,如 Pascal 写作 Sfor i==EY to ESG) do SO , 它 的 步 长 隐 含 为 1, 所 以 E2 可 缺 省 。 
这 些 FOR 语句 的 实质 相同 。 
对 于 FOR 语句 的 翻译 ,不 同 语言 有 不 同 的 解释 ,下 面 介绍 三 种 解释 方法 。 
(1) 按 PL/1 将 FOR 语句 翻译 成 ， 
ji: 王 Eo 
INCR:=E®; 
LIMIT:=E'®; 
goto OVER 
AGAIN:i:=i 十 INCR 
OVER:if i<LIMIT then 
begin SY ;goto AGAIN end; 
因为 E2 和 E'9 表达 式 在 循环 期 间 一 般 是 不 会 改变 的 (即使 改变 仍 以 循环 前 为 准 ), 所 以 
可 以 提前 先 翻译 ,结果 留 给 循环 体内 引用 。 该 解释 的 特点 是 进入 循环 体 前 先 判定 初 值 是 否 小 
于 等 于 终 值 , 若 为 真 就 做 循环 体 语句 ,做 完 循环 体 语句 后 回 过 来 修改 循环 控制 变量 ,继续 判定 
循环 控制 变量 是 否 小 于 等 于 终 值 ,重复 上 述 过 程 ; 若 判定 结果 为 假 , 便 完成 该 语句 ,将 此 假 的 四 
元 式 序号 作为 语句 链 , 留 在 S.CHAIN 中 。 
为 了 实现 这 种 解释 ,改写 FOR 语句 文法 ,并 给 出 相应 语义 子 程序 如 下 : 


产生 式 语义 子 程序 
(1) F>fori:=E® step  {F. PLACE:=ENTRY(i); 
Buntil EY GEN(:=,E®Y + PLACE,—,F* PLACE); 


q:=NXQ;F .QUAD:=q 十 1; 
GEN (j, —, —, q+2); 
GEN (+,F. PLACE, E® . PLACE, F. PLACE); 
GEN (<,F* PLACE, E® . PLACE, q+4); 
F* CHAIN:=NXQ;GEN(j, 一 , 一 , 0)} 
(2) S>F do SO {BACKPATCH (SD。CHAIN, FE. QUAD); 
GEN (0j ,一 , 一 , F. QUAD); 
S* CHAIN:=F. CHAIN} 
在 做 第 一 个 产生 式 归 约 前 EY ,E2 ,E'2? 都 已 生成 了 相应 四 元 式 序列 ,其 结果 已 留 在 各 自 
的 PLACE 中 。 因 此 ,这 里 进行 第 一 个 产生 式 归 约 时 ,将 留 在 PLACE 栈 中 各 自 的 内 容 分 别 生 
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成 如 下 三 个 四 元 式 : 
(:=,E® .PLACE, 一 ,ENTRY(i)); 
(+,ENTRY(),E® . PLACE,ENTEY()); 
(<,ENTRY(D),E® . PLACE,q+4); 


即 生成 控制 循环 的 中 间 代 码 四 元 式 , 以 备 循环 体内 使 用 。 
(2) FOR 语句 至 少 做 一 次 循环 体 ( 像 FORTRAN TV 那 样 ) , 即 解释 成 ， 
i: 一 Eo ; 
INCR:=E®?,; 
LIMIT:= Es 
AGAIN: So5 

i: 一 i 十 INCR 
if i<LIMIT goto AGAIN 

改写 文法 并 配 上 相应 语义 子 程序 ， 

产生 式 语义 子 程序 
(1) F>for i: =E'Y step {F* PLACE:=ENTRY'(); 
E'® until E‘* GEN(:=,E®Y . PLACE,—,F. PLACE); 


INCR:=E®? . PLACE; 
LIMIT:=E' . PLACE; 
F. QUAD:= NXQ) 
(2) S>F do SO {BACKPATCH (SY . CHAIN, NXQ); 
GNE(+,F* PLACE,INCR,F. PLACE); 
GENG<,F. PLACE,LIMIT,F . QUAD) 
S. CHAIN.:=0} 
其 中 ,F.。 PLACE 存 于 语义 栈 ,INCR.LIMIT 是 语义 变量 ,它们 分 别 存放 循环 控制 变量 的 入 口 
地 址 ,以 及 E2 ,E'? 表达 式 的 结果 临时 变量 序号 或 人口 地 址 。 这 里 E*?*，PLACE,E*”。 
PLACE 没有 用 语义 栈 而 用 语义 变量 缓存 是 为 了 节省 语义 栈 的 数目 。 
这 种 翻译 不 留 语 句 链 , 因 为 该 语句 执行 结束 后 自动 转 后 继 语句 执行 ,这 正 像 赋值 语句 的 翻 
译 ,结果 语句 链 为 0( 在 做 Si: 二 EE 归 约 时 应 增加 语义 动作 S. CHAIN:=0)。 这 种 翻译 目标 
代码 质量 较 高 ,但 它 要 求 循 环 体 语句 至 少 做 一 次 ,有 时 不 满足 用 户 编程 要 求 。 不 过 我 们 能 从 第 
二 种 解释 联想 到 可 把 第 一 种 解释 改 成 如 下 第 三 种 解释 形式 ,也 能 获得 目标 代码 质量 较 高 的 
结果 : 
(3) FOR 语句 一 种 较 优 的 解释 : 
is=E®; 
INCR:=E®; 
LIMIT: 王 EG) ; 
AGAIN: if i>LIMIT goto NEXT， 
begin 
So 5 
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i: 一 i 十 INCR;， 

goto AGAIN; 

end 
NEXT: 
作为 练习 ,请 读者 写 出 翻译 成 这 种 形式 的 语义 子 程序 。 
[5 例 7. 4] 按 上 述 三 种 不 同 语义 子 程序 ,翻译 for i:=1 step 2 until 2*X do A: 二 A 十 2 成 
四 元 式 序列 。 

解 按 第 一 种 语义 子 程序 翻译 按 第 二 种 语义 子 程序 翻译 


CY CET 5 
{27 C3 =i—; (2) Go= ssl; CO— 7 
(3 (和 5 一 5 一 25 (3) (十 ,A,2;T2:) 
(a (4) (:=,T;,—,A) 
CY On Tr (5 C4 

(OY Kis— 3 =50% (06¥ Gls Tr (9) 
[0D yg 


(8) (;=,T,,—,A) 

(9) (j, 一 ,一 ,(4)) 
/#*(6) 式 为 待 填 S。 CHAIN* / 

按 第 三 种 语义 子 程序 翻译 

CLIy Xs TY 

(2) (:=,1,—si) 

(3) (> ,i, Ti ,0) /x (3) 式 为 待 填 S。CHAIN*/ 

(4) (十 ,A,2,T,) 

(5) (:=,T,,—,A) 

C067 sin23 

(7) G,—,—,(3)) 

(C8) ss 


“7.4.6 分 情 语句 的 翻译 


许多 程序 语言 中 含有 不 同形 式 的 分 情 语句 (CASE 语言 或 SWITCH 语句 ) ,这 里 主要 讨论 
Pascal 的 CASE 语句 , 它 的 语法 结构 如 下 : 
S—>case E of 
La 
LS 


LS /x*L。 可 能 是 else 或 otherwise*/ 
end 
Lr>i| Li /¥j=1,2,°… ,nx*/ 
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这 里 下 称 为 选择 器 ,是 整 型 表达 式 或 字符 (char) 型 变量 ,每 个 Li 是 常数 表 ,S? 是 语句 。 分 情 
语句 的 语义 是 : 若 E 的 值 等 于 Li 中 某 个 常数 i, 则 执行 S9 语 句 , 当 某 个 S9 执行 完 之 后 ,整个 
CASE 语句 也 就 执行 完了 。 
CASE 语句 的 翻译 有 多 种 方法 ,如 果 分 情 不 太 多 (如 只 有 10 个 以 下 ) ,那么 可 以 翻译 成 如 
下 一 连 串 的 条 件 转移 语句 : 
T:=E; 
Bi :IF T#L GOTO B,; 
SY ;GOTO NEXT; 
Bs :IF TA#L: GOTO B,; 
SIGOTONEXTS; 


BS™s 
NEXT: 
如 果 语 法 结构 中 L。 是 else( 或 otherwise) 的 形式 ,因为 其 他 条 件 不 满足 ,必定 它 要 满足 。 不 过 
Sm 语句 可 以 是 空 语句 或 出 错 处 理 语 句 。 如 果 Li 是 常数 表 , 那 么 对 于 每 一 个 常数 ,都 生成 相应 
的 条 件 语句 。 
另外 一 种 更 加 紧 竣 的 考虑 是 生成 一 张 表 , 它 包含 两 栏 ,一 栏 是 标号 常量 本 身 ,一 栏 是 它 对 
应 的 语句 入口 。 并 且 将 选择 器 下 的 值 作为 表 的 最 后 一 行 常 量 。 等 到 CASE 语句 翻译 完 ,构造 
一 个 对 王 值 查找 此 表 的 循环 程序 。 同 时 将 此 表 和 此 程序 带 到 运行 时 使 用 。 
但 更 常用 的 办 法 是 造 表 与 查 表 程序 不 带 到 运行 时 处 理 , 而 在 编译 时 译 好 以 供 运行 时 执行 。 
它 是 将 中 间 代 码 翻译 成 如 下 形式 : 
生成 下 代码 段 ,并 将 王 值 存 于 工 单元 ,然后 生成 如 下 代码 序列 ， 
GOTO TEST 
Bi :关于 S2 中 间 代 码 
GOTO NEXT 
B: :关于 S2 中 间 代 码 
GOTO NEXT 


Bu :关于 Sm 中间 代码 
GOTO NEXT 
TEST:IF T=L, GOTO B, 
IF T=L: GOTO B。 


IF IT=L- GOTO B。 ， 
GOTOD. 
NEXT: 
由 于 把 条 件 转移 语句 附 在 整个 语句 翻译 完 之 后 ,这 样 就 省 去 在 运行 时 做 这 件 工作 ,而 且 条 
件 语句 集中 在 一 起 也 便于 产生 较 高 质量 的 目标 代码 。 
在 考虑 如 何 翻译 CASE 语句 前 ,对 Pascal 中 的 CASE 语句 需要 进一步 了 解 。 
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(1) 标号 Li 可 以 是 常数 表 。 因 此 可 把 Li 中 的 每 个 常数 都 当 作 一 个 标号 来 翻译 ,只 不 过 它 
们 所 对 应 的 语句 是 相同 的 而 已 。 

(2) CASE 语句 可 以 嵌 套 CASE 语句 ,而 且 这 种 嵌 套 在 文法 上 是 不 加 限制 的 。 因 此 ,在 每 
进入 一 个 CASE 语句 时 都 要 构造 一 个 队列 (就 是 前 面 讲 的 表 ), 它 也 由 两 栏 组 成 。 当 退出 此 
CASE 语句 时 就 归还 给 系统 。 为 了 实现 这 种 由 套 CASE 语句 翻译 , 仍 需 一 个 语义 栈 , 以 记录 每 
个 柑 套 CASE 语句 翻译 时 的 队列 首 址 .未 址 .该 CASE 的 下 。PLACE 值 和 待 填 的 TEST 与 
NEXT 链 。 为 此 ,采用 如 下 的 数据 结构 与 语义 过 程 : 

Q@STACK 栈 :分 五 个 域 ( 五 栏 ),TOP 为 指示 器 , 初 值 为 0, 栈 初 值 也 为 0, 每 进入 一 
CASE,TOP 加 1。 五 个 域 涵义 为 : 

STACK[TOP]， FIRST 一 一 该 层 CASE 的 QUEUE 表 的 首 址 ; 

STACK[TOP]，LAST 一 一 该 层 CASE 的 QUEUE 表 的 末 址 ; 

STACK[TOP]，TEMP 一 一 该 层 CASE 的 E。 PLACE; 

STACK[LTOP]. NEXT 一 一 该 层 CASE 的 NEXT( 待 填 的 链 ); 

STACKLTOP], TEST 一 一 该 层 CASE 的 TEST( 待 填 的 链 ) 。 

@QUEUE 队列 :各 层 队 列 可 共用 一 个 二 维 数组 。 用 指示 器 P 来 区 分 ,P 初 值 为 0。 
QUEUE 队列 有 两 栏 ,其 含义 是 : 

QUEUE(P). LABEL 一 一 CASE 语句 一 个 标号 ; 

QUEUE(P)。QUAD 一 一 CASE 语句 中 某 标号 对 应 的 语句 起 始 四 元 式 序号 。 

@@LOOKUP 语义 过 程 : 用 于 查找 CASE 语句 内 是 否 有 重 定义 标号 错 。 因 为 语法 检查 时 
查 不 出 来 ,所 以 由 语义 检查 来 完成 。 

下 面 将 Pascal 的 CASE 语句 文法 改写 ,并 给 出 相应 的 语义 子 程序 。 

产生 式 语义 子 程序 

(1) Ci>case {TOP:=TOP+1;STACK[TOP] * FIRST:=P+1; 
STACK[LTOP]. LAST:=null; 
STACK[TOP]* NEXT.:=null} 

(2) Cs>C1 E of {STACK[TOP] * TEMP:=E. PLACE; 
STACKLTOP]. TEST:=NXQ; 
GEN(j,—,— ,0)} 

(3) Li {if STACK[TOP] * LAST#null then 
LOOKUP(TOP.);p:=p+1; 
QUEUE(p) + LABEL: =i; QUEUE(p) . QUAD: = NXQ; 
STACK[TOP] . LAST.:=p} 

(4) L—>L®,i {LOOKUP(TOP,i);p:=p+1; 
QUEUE(p) « LABEL: =i; 
QUEUE(p) .+ QUAD: = NXQ:; 
STACK[TOP] * LAST.:=p} 

(5) W 一 L:SO {BACKPATCH(S® . CHAIN, NXQ); 
q:= NXQ; 
GEN(j,—,— ,0); 


如 
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STACKLTOP]. NEXT.:= MERG:; 
(STACK[ TOP] . NEXT,q)} 
(6 W=WO LS® {BACKPATCH(S® . CHAIN, NXQ); 
q:= NXQ; 
GEN 人 一 70 
STACKLTOP]. NEXT.= MERG:; 
(STACK[TOP].* NEXT,q)} 
(7) S>C, W end {BACKPATCH(STACK[ TOP] . TEST, NXQ); 
T:=STACK[TOP]. TEMP:; 
for t:=STACK[TOP]. FIRST to STACK[ TOP] . LAST do 
begin 
C:=QUEUE[t]* LABEL; 
Q:=QUEUEL[Lt] . QUAD; 
if CL, then / 关 I。 是 else 或 otherwisex / 
GEN(CcaseyC,Q ,一 ) 
else 
GEN(Ccase,TQ, 一 ) 
end 
GEN(lable, 一 ,一 ,一 ); 
S.。CHAIN:=STACKLTOP]. NEXT; 
TOP:=TOP—1; 
p:=STACK[TOP]* LAST} 
/恢复 外 层 的 队列 指针 */ 
其 中 产生 新 形式 的 四 元 式 (case,C,Q, 一 ), 它 实际 代表 一 个 条 件 语句 
IF T=C GOTO Q 
这 里 之 所 以 用 case 作为 四 元 式 操作 码 , 乃 是 希望 目标 代码 产生 器 能 对 它 进行 优化 处 理 。(1a- 
bel, 一 ,一 ,一 ) 四 元 式 用 来 告诉 目标 代码 生成 器 , 它 现 在 可 以 将 其 前 面 的 一 组 (case, C, Q， 
一 ) 四 元 式 变换 成 高 效 的 目标 代码 (比如 用 散 列 技术 等 ) 。 
例如 , 写 出 下 列 语句 的 四 元 式 序 列 。 
case I 十 J of 
2:; K:; =M 
7: case K of 
0; I: 三 J 十 1; 
1:I: 王 J 十 3; 
else I: 一 2 
end; 
9:K:=M—1; 
else K:=M+1 
end 
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这 是 骨 套 CASE 语句 , 当 加 工 到 内 层 CASE 句 的 else 时 得 到 的 STACK 栈 和 QUEUE 队列 的 


形式 如 图 7.8 所 示 。 队 列 指针 了 从 1 十 1 开始 填 , 至 此 已 填 到 1 十 5。 
LABEL | QUAD 
FRIST [ LAST | TEMP | NEXT | TEST | i 0 
|! HL tlT olozl | oo | 
ToP 2 H3 | 1 | K | or3| ar | 13| 0 Qi6 
3 | | | 114| 1 Q+9 
P 一 ~ 1+5 else Q+12 
(a) STACK 栈 (b) QUEUE 队 列 


图 7.8 栈 与 队列 结构 


当 加 工 到 外 层 CASE 语句 的 else 时 ,STACK 本 和 QUEUE 队列 的 形式 如 图 7.9 所 示 。 
这 时 内 层 CASE 结束 ,队列 占有 的 单元 退回 , 栈 也 弹出 ,继续 外 层 处 理 。 


LABEL | QUAD 
FRIST | LAST | TEMP | NEXT | TEST ml oo | 
top li | | mT Q+2 | 1 7 or 
2 | 9 onyg| 
P 一 ~ 1+4 else Q+22 
(a) STACK 栈 (b) QUEUE 队 列 
图 7.9 栈 与 队列 
后 生成 的 四 元 式 序列 为 ， 
《六 十 下 a 帮 
(2) 《和 一 一 人 十 25) /< 转向 外 层 casex / 
(Q+3) (: 一 ,M, 一 ,K) 
(Q 十 4) (j, 一 ,一 ,0) 
(CQ 二 5) ,一 ,一 ,QT 十 14) /转向 内 层 casex / 
(Q+6) (ajolo lay 
(Q+7) (:=,T,,—,1) 
(Q 十 8) ( ,一 ,一 ,Q 二 18) 
(Q 十 9) (十 ,J,3,Ts) 
(Q 十 10) (: 一 ,Ts ,一 ,ID) 
(Q+11) (j=;»=;»Q+18> 
(Q 十 12) [研一 
(QT13) Cis) 
(Q+14) (case,0,Q+6.,—) /* 内 层 case 测试 */ 
(QTF15Y (casesls QT9s—) 
(Q+16) (case,K,Q 十 12 ,一 ) 
(Q+17) (label,—,—,—) 
(Q 十 18) (jj, 一 ,一 ,Q+4) 


(Q 十 19) (—,M,1,T,) 
(CQ 十 20) (: 一 ,Ti 一,K) 
(O21y (js 一 3 一 5 人 QQ 二 18) 
(QT22) (十 ,M,1,Ts) 
(QT+23) (:=»Ts,—,K) 
S.CHAIN<(Q+24) C—O 
{O25 (case,2,Q 十 3, 一 ) /外 层 case 测试 x*/ 
《Q+26) (casey9O 寺 57 一》 
(Q 十 27) (case,9,Q 十 19 ,一 ) 
(Q 十 28) (case, Ti,Q 十 22, 一 ) 
(Q 十 29) (label ,一 ,一 ,一 ) 


最 后 S. CHAIN==Q+24。 


7.4.7 复合 语句 的 翻译 


前 面 已 介绍 了 各 类 语句 的 翻译 ,还 剩 下 的 问题 就 是 回填 语句 链 , 这 个 任务 很 简单 ,可 由 复 
合 语句 翻译 来 承担 ,复合 语句 文法 可 改写 作 : 
S-~begin L end 


的 

L 一 LSS 

LL; 
相应 语义 子 程序 描述 如 下 : 

产生 式 语义 子 程序 
《1 .LS {(L。CHAIN:=S。CHAIN) 
《2 LS {(BACKPATCH(CL。CHAIN,NXQ)} 
Cay ES {(L。CHAIN:=S。CHAIN) 

{ 


(4) Sbegin L end BACKPATCH(L。CHAIN:,NXQ);S。 CHAIN :=0) 


7.5 数组 元 素 及 其 在 赋值 语句 中 的 翻译 


7.5.1 数组 及 其 下 标 变量 地 址 的 计算 


数组 是 一 种 结构 类 型 , 它 是 由 相同 类 型 的 一 组 元 素 组 成 的 。 数 组 有 一 维 、 二 维 、 多 维 之 分 ， 
一 维 数组 又 称 向 量 ,二 维 数组 又 称 和 矩阵 。 每 一 维 都 有 下 标 ,用 于 区 分 数组 元 素 在 数组 中 的 位 
置 。 例 如 ,二 维 数组 A 二 (ai)s*。*: 它 可 以 看 成 由 m 行 向 量 组 成 的 向 量 ,当然 也 可 看 成 由 n 列 
向 量 组 成 的 向 量 。 对 于 二 维 数组 的 每 个 元 素 ai .i,j 分 别称 作 行 下 标 和 列 下 标 , 它 们 表示 ai 这 
个 元 素 在 行列 向 量 中 的 位 置 ,比如 az 习惯 上 称 作 第 二 行 、 第 三 列 上 的 元 素 。 每 维 的 下 标 只 能 
在 该 维 的 上 、 下 界 之 间 变 动 ,一 般 来 说 ,上 、 下 界 可 以 是 任意 整数 (可 正 ,可 负 ) , 维 数 也 不 受 限制 
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(当然 ,在 计算 机 具体 实现 时 必须 加 以 限制 )。 数 组 的 每 个 元 素 ( 俗 称 下 标 变量 ) 是 由 数组 名 连 
同 各 维 的 下 标 值 命名 的 ,如 A[i ,ja,…'i]。 根 据 数组 类 型 (实际 上 是 每 个 元 素 的 类 型 ) ,每 个 
数组 元 素 在 计算 机 中 占有 相同 的 存储 空间 。 如 果 一 个 数组 所 需 的 存储 空间 在 编译 时 就 已 知 
道 , 则 称 此 数组 为 确定 数组 ;否则 , 称 作 可 变数 组 。 数 组 可 以 是 多 维 的 ,但 计算 机 的 内 存 结构 是 
一 维 的 。 用 一 维 内 存 来 存放 多 维 数组 的 序列 时 通常 采用 两 种 方式 。 一 种 是 按 行 存放 :第 一 行 
元 素 放 完 ,依次 放 第 二 行 等 :一 种 是 按 列 存放 :第 一 列 元 素 放 完 ,依次 放 第 二 列 等 。 前 者 是 至 今 
大 部 分 程序 语言 仍 采用 的 存储 方式 ,后 者 主要 是 在 FORTRAN 中 采用 。 设 有 数组 说 明 A:ar- 
ray[1:2,1:3], 这 两 种 存储 方式 的 存储 分 配 分 别 如 下 所 示 : 


A[1,1] A[L1,1] 


A[1,2] | 四 名 如 ) 和 一列 
A[1,3] A[1,2] 第 二 列 
A[2,1] _ A[2,2] | 本 
A[2,2] js A[1,3] jn 
A[2,3] A[2,3] 

按 行 存放 按 列 存放 


数组 元 素 的 存储 地 址 和 存储 方式 密切 相关 。 先 讨论 按 行 存放 时 如 何 计算 数组 元 素 的 地 
址 。 设 有 一 数组 A, 说 明成 array[1:10,1:20], 数 组 的 首 地 址 为 a, 即 A[1,1] 存 于 a 单元 ,每 个 
数组 元 素 占 m 个 字 单 元 ,那么 数组 元 素 A[Li,j] 的 地 址 为 : 

a 十 ((i 一 1) * 20 十 (j 一 1)) * m 
或 写作 ， 
(Ca 一 21x m) 十 (20* i 十 j) x m 

一 般 而 言 , 设 A 是 由 下 面 说 明 语句 定义 的 一 个 n 维 数组 :array[Lh :u ,lj :us，…lha:u], 令 
di 二 ui 一 上 十 1,i 二 1,2,…,n 为 每 一 维 尺寸 ;a 为 数组 的 首 地 址 ,每 个 元 素 占 m 个 字 单 元 。 那 么 
在 按 行 存放 的 前 提 下 ,数组 元 素 ALi ,ia ,…'ia] 的 地 址 D 为 : 

D 王 a 十 ((i 一 1 )dzds…ds 十 (ia 一 2)dsd…ds 十 … 十 (ii 一 -id 十 (一 1))m 
经 因 式 分 解 后 得 : 
D=CONSPART+VARPART 


其 中 ， 

CONSPART=a—C 

C=((…((nd 十 )d;: 十 )d 十 … 十 ld 十 l)m 

VARPART= 王 ((…((nd 十 ij)d; 十 ia)d 十 … 十 ii )ds 十 im 
CONSPART 称 作 不 变 部 分 , 它 与 下 标记 ,is,…,i, 无 关 , 只 同 各 维 尺 十 和 下 界 有 关 , 所 以 
CONSPART 只 需 计 算 一 次 ,特别 是 其 中 的 C 在 编译 时 就 可 计算 出 ,以 供 计算 下 标 变 量 地 址 时 
引用 。 而 VARPART 部 分 与 下 标 值 ,i,,… ,i,。 有 关 , 称 作 可 变 部 分 , 它 必须 根据 下 标 值 转换 
成 相应 代码 , 待 运行 时 计算 出 。 不 过 在 转换 成 中 间 代 码 时 也 用 到 数组 的 一 些 信息 ,如 每 维 尺 
才 、 类 型 等 。 

为 此 ,在 编译 程序 遇 到 数组 说 明 时 ,必须 把 数组 的 有 关 信 息 记 录 在 一 张 “ 内 情 向 量 ” 表 中 。 
以 便 以 后 计算 数组 下 标 变 量 地 址 时 引用 这 些 信 息 。 这 张 内 情 向 量 表 必须 包括 : 维 数 、 各 维 上 下 
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界 、 首 地 址 、 类 型 以 及 C 值 。 其 结构 如 图 7. 10 所 示 , 其 中 TYPE 为 类 型 ,知道 了 TYPE, 就 知 
道 了 每 个 下 标 变量 占 多 少 单元 。 


对 于 确定 的 数组 来 说 ,内 情 向 量 可 登记 在 编译 时 的 符号 表 中 ; 
对 于 可 变数 组 ,内 情 向 量 的 一 部 分 (或 全 部 ) 在 编译 时 无 法 知道 ,只 
有 在 运行 时 才能 计算 出 来 。 因 此 ,编译 程序 必须 为 可 变数 组 设置 
一 个 存储 空间 ,以 便 在 运行 时 建立 相应 的 内 情 向 量 表 。 不 论 是 对 
确定 数组 还 是 可 变数 组 ,数组 元 素 的 地 址 计算 公式 都 是 一 样 的 ,其 
算法 也 一 样 。 要 在 运行 时 建立 内 情 向 量 表 , 必 须 在 编译 时 为 运行 
程序 准备 好 调用 的 程序 ( 称 运行 子 程序 ) , 当 执行 到 数组 A 所 在 的 


分 程序 时 ,就 把 内 情 向 量 的 各 有 关 参 数 填 进 表 内 ,然后 动态 地 申请 。 图 7.10 内 情 向 量 表 结构 
数组 所 需 的 存储 空间 。 下 面 简单 地 讨论 这 个 子 程序 的 算法 。 假 定 
数组 的 维 数 为 n, 各 维 界 值 是 hb,u ,lu ,…'lh,us, 下 标 变量 类 型 
为 TYPE, 数 组 按 行 存放 ,算法 如 下 : 


BEGIN 


i 三 1;N; 二 1;C: 二 0; /*N 是 数组 占有 的 内 存 空间 ,C 为 不 变 部 分 常数 */ 
WHILE i<n DO /*n 为 维 数 * / 


BEGIN 
di 一 u 一 1 十 1; 
N:=N* di; 
C:=Cx ditls 


把 1;,ui,d; 填 进 内 情 向 量 表 中 ; 


i:=i 十 1 
END 


N: 二 Nx*xm; /* 按 TYPE 类 型 ,每 个 元 素 占 m 个 字 单元 * / 


C:=Cx*m; 


申请 N 个 单元 的 数组 空间 , 令 这 片 空间 的 首 地 址 为 a; 
把 n 和 C 以 及 TYPE 和 a 填 进 内 情 向 量 表 中 


END 


对 于 数组 元 素 按 列 存放 时 的 存储 地 址 计算 略 有 不 同 ,这 里 仅 简单 地 列 出 计算 ALj ,jz，…， 


jj] 的 地 址 公式 ,其 他 的 讨论 同行 存放 方式 。 


D=CONSPART+VARPART 
CONSPART=a 一 C(a 为 数组 A 的 首 地 址 ) 


C=1 十 4 十 dd 十 … 十 dd…d: 
VARPART =i 十 jad 十 jadid 十 … 
= 十 di(is 二 dz (is 十 … 


十 二 出 dz ‘doi 


dy(ii 直 di )) 


上 面 的 公式 有 两 个 假定 :数组 的 下 界 取 1, 这 也 是 FORTRAN 语言 所 规定 的 ;数组 的 每 个 元 素 


占 一 个 字 单 元 。 
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7.5.2 数组 元 素 引 用 的 中 间 代 码 形式 


为 简单 起 见 ,我 们 只 讨论 确定 的 数组 (也 称 静 态 数 组 , 它 在 编译 时 就 可 确定 数组 的 大 小 ) 的 
翻译 问题 。 按 计算 机 结构 ,访问 数组 元 素 ALi ,ja ,…,is] 可 设想 为 :把 它 的 VARPART 计算 在 
某 一 变 址 单元 工 中 ,用 CONSPART 作为 “ 基 址 ”, 然 后 以 变 址 方式 访问 存储 单元 ,写作 

CONSPART[T] 

由 于 数组 是 静态 的 ,因此 CONSPART=a 一 C, 其 中 的 C 在 处 理 说 明 语 句 时 已 填 在 内 情 向 
量 表 中 ,可 以 查 得 ;而 a 在 处 理 说 明 语 句 时 可 能 知道 也 可 能 不 知道 ,但 在 运行 时 总 是 可 以 确定 
的 ,所 以 可 以 生成 a 一 C 代码 , 待 运行 时 再 行 确定 。 假 定 Ti :=a 一 C 是 用 于 存放 CONSPART 
的 临时 单元 ,那么 TiLT] 就 可 用 来 表示 数组 元 素 的 地 址 。 在 对 数组 元 素 引 用 时 ,可 以 写成 变 
址 取 数 四 元 式 : 

(=[ J,Ti[T],—,X) 
其 含义 相当 于 X: 二 [Tj], 其 中 “==[ ”J” 为 变 址 取 数 赋值 号 。 在 对 数组 元 素 赋 值 时 ,可 以 写 
成 变 址 存 数 四 元 式 : 

全 .yD) 
其 含义 相当 于 TI[T]j: 二 X, 其 中 “[ ]= ?为 变 址 存 数 赋值 号 。 


7.5.3 按 行 存放 的 赋值 语句 中 数组 元 素 的 翻译 


首先 ,给 出 含 数组 元 素 的 赋值 句 文法 。 这 个 文法 可 写作 
A>V:=E 
V—>iLelistj| i 
elist>elist,E| E 
E>E op EI|(E)| V 
其 中 ,E op 下 的 op 表示 各 种 算术 算 符 (比如 十 ,一 ,* ,/ 等 )。 一 个 赋值 语句 A 是 一 个 V( 指 简 
单 变量 或 下 标 变量 ) 后 跟 赋值 号 :“==” 和 一 个 算术 表达 式 。V 可 以 是 简单 变量 也 可 以 是 下 标 变 
量 ;下 标 变量 是 由 数组 名 后 跟 括 号 及 括号 内 由 逗号 分 开 的 若干 表达 式 组 成 ;表达 式 按 常 规定 
义 , 但 表达 式 中 变量 又 可 以 是 下 标 变量 。 这 种 递归 定义 形成 数组 嵌 套 数组 结构 。 
为 了 便于 计算 VARPART 和 产生 相应 四 元 式 代码 ,将 文法 改写 成 : 
A>V.:=E 
V—>elist]| i 
elist>elist™ ,E | i[E 
E>E op EI(E)| V 
把 数组 名 i 和 最 左下 标 表 达 式 写 在 一 起 的 目的 是 表示 为 数组 i 开始 计算 第 一 个 下 标 ,同时 使 我 
们 在 整个 下 标 串 elist 的 翻译 过 程 中 随时 都 能 知道 数组 i 的 符号 表 入 口 地 址 及 表 中 相应 信息 。 
下 面 先 介 绍 几 个 语义 变量 及 函数 过 程 。 
(1) 语义 变量 。 
ARRAY 一 一 数组 名 的 符号 表 的 和 人口 地 址 。 


DIM 一 一 数组 下 标 维 数 计数 器 ,每 扫描 一 个 下 标 表达 式 DIM 加 1。 
PLACE 一 一 语义 变量 , 它 或 是 存 符 号 表 和 人口 地 址 或 是 临时 变量 的 序号 。 
OFFSET 一 一 简单 变量 ,车 OFFSET=null(null 是 特殊 记号 );@ 下 标 变量 , 若 OFF- 
SET 保存 已 计算 的 VARPART。 
(2) 函数 过 程 。 
LIMITLARRAY,k] 一 一 通过 符号 表 查 内 情 向 量 表 ,返回 第 k 维 的 尺寸 di。 
HEADLARRAY] 一 一 或 者 是 查 内 情 向量 表 的 数组 首 地 址 a, 或 者 是 等 到 运行 时 分 配 到 数 
组 地 址 a。 
CONSLARRAY] 一 一 查 内 情 向 量 表 , 得 C 值 。 
TYPE[ARRAY] 一 一 查 内 情 向 量 表 TYPE 项 ,返回 一 个 数组 元 素 占 有 的 字 单 元 数 m。 
按照 求 VARPART 的 公式 , 若 每 个 下 标 变量 占 一 个 字 单 元 编 址 , 则 可 以 写 出 计算 
VARPART 的 算法 : 
VARPART:=i; 
ks 三 下 
WHILE k<n DO /xn 为 维 数 * / 
BEGIN 
VARPART:=VARPART x ds+l 十 its /* 设 下 标 表达 式 已 计算 好 ,并 存 
于 ik 单元 中 */ 


k:=k 十 1 
END 

这 是 个 迭代 算法 ,每 通过 一 次 迭代 ,计算 VARPART 总 要 做 一 次 乘法 和 一 次 加 法 ,其 计算 过 程 
正好 与 elist 归 约 过 程 吻 合 。 因 此 ,可 以 利用 从 左 到 右 扫 描 输 入 串 , 边 扫描 下 标 表 达 式 , 边 归 约 
边 产 生计 算 VARPART 的 中 间 代 码 。 其 产生 的 中 间 代 码 序列 如 下 (这 里 略 去 计算 表达 式 的 中 
间 代 码 ) : 

人 

(Os 

(yd ,a 

(十 ,Ts ,Ts) 


下 面 是 关于 含有 数组 元 素 的 赋值 语句 的 翻译 规则 。 我 们 仅 列 出 每 个 产生 式 的 主要 语义 动 
作 ,而 省 略 了 一 切 语义 检查 。 
产生 式 语义 子 程序 
(1) A>V.:=E {IF(V。 OFFSET= 二 null)THEN/ x V 是 简单 变量 * / 
GEN(:=,E. PLACE,—,V. PLACE) 
ELSE GEN([ ]=:E. PLACE, 一 .V. PLACE[V. OFFSET])} 
这 里 , 若 V 是 下 标 变量 , 则 产生 变 址 存 数 四 元 式 。 
(2) E>ED op EC {T:=NEWTEMP; 
GEN(op,E® . PLACE,E®? . PLACE.,T); 
EPEACE:=T} 
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《3 EE 
Cy E>™V 


{E. PLACE:=E® . PLACE} 
{IF(V。OFFSET 二 null)/ x*V 是 简单 变量 x*/ 
THEN E. PLACE:=V. PLACE 

ELSE ”/xV 是 下 标 变量 */ 

BEGIN T.:=NEWIEMP:; 


GEN(=[ J,V* PLACE[V* OFFSET], 一 ,T); 


E* PLACE:=T 
END} 


若 V 是 下 标 变量 ,产生 变 址 取 数 四 元 式 , 送 临时 变量 工 暂 存 。 


(5) V—>elist] {IF(TYPE .+ [ARRAYJ#1 THEN 


BEGIN T:=NEWTEMP:; 


GEN(* ,elist。 PLACE,TYPE[ARRAY],T)， 
elist* PLACE:=T 
END; 


V » OFFSET:=elist * PLACE; 
T:=NEWTEMP:; 
GEN( 一 ,HEADLARRAY],CONSLARRAY],T); 
V .PLACE:=T} 
这 里 ,三 个 函数 过 程 HEAD[ARRAY],CONS[ARRAY],TYPE[ARRAY] 用 来 查 内 情 向 量 
表 , 获 得 a,C 和 每 个 数组 元 素 占有 的 字 单 元 数 m。 第 一 个 四 元 式 仅 当 数组 元 素 不 等 于 1 个 字 
单元 时 才 做 ,用 来 最 终 计 算 VARPART 部 分 ,并 存 于 V，OFFSET 中 。 第 二 个 四 元 式 用 来 计 
算 CONSPART 并 存 于 V. PLACE。 这 些 是 变 址 存 数 和 变 址 取 数 指令 所 需要 的 。 
(6) Vi {V » PLACE:=ENTRYI[i]; 
V »« OFFSET.: =null)} 
对 于 简单 变量 的 归 约 , 它 无 需 计 算 地 址 , 它 从 符号 表 入 口 查 地 址 栏 即 可 。 而 null 是 为 其 他 语 
义 动 作 设置 逻辑 判断 条 件 的 ,这 一 点 是 对 简单 变量 归 约 时 增加 的 语义 动作 。 


(7) elist—>elist™, E 


这 里 产生 的 两 个 四 元 式 就 是 下 标 表达 式 归 约 时 用 来 逐步 计算 可 变 地 址 部 分 的 。 


{T:=NEWTEMP: 

k:=elist™ »« DIM+1; 
dx:=LIMIT(elist™ » ARRAY ,Kk); 
GEN( * ,elist'* »。 PLACE, dx ,T); 
Ti:=NEWTEMP:; 

GEN(+,T,E* PLACE,Ti); 

elist* ARRAY:=elist™ + ARRAY:; 
elist * PLACE:=T,; 

elist * DIM.:=k} 


elist »* PLACE<-elistY « PLACE * di +E.* PLACE, 


(8) elist™>i[E 


{elist « PLACE:=E. PLACE; 
elist。DIM: 王 1; 


/* 下 标 变量 非 1 字 编 址 * / 


它 相 当 于 执行 
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elist* ARRAY .=ENTRY'(i)} 

第 一 维 下 标 值 存在 PLACE 栈 内 。 数 组 名 i 的 符号 表 入 口 存 在 ARRAY 栈 ,以 便 以 后 查找 用 。 
例如 ,数组 A 说 明 为 array[1:10,1:20], 且 从 内 情 向 量 表 查 得 数组 首 地 址 为 a, C=21， 

dz 二 20,m 二 1, 则 为 X: 二 A[I,] 语 句 生成 的 四 元 式 序列 为 : 

CI RK TO TY 

《人 

(C3) = Ty 

Ca = 1; TE]s= Ty 

(5) (:=,T,,—,X) 

再 如 , 设 数组 A 说 明 为 array[2:10, 一 2:10], 每 一 个 数组 元 素 占 4 个 单元 ,a 是 首 地 址 , 试 编 

出 ALI 十 2,J 十 二 := 王 A[I, 刀 十 2 的 四 元 式 序列 。 可 以 先 计 算 C= (ix* d 十 ) * m 一 (2x 13 十 
(一 2)) * 4 一 96 ,四 元 式 序列 如 下 : 

(1) (十 ,TI,2,Ti) 

《2 

3 

(7 下 

《5 人 /* 其 中 4 表示 每 个 数组 元 素 占 4 个 单元 * / 

(6) (一 ,a,96,Te) 

(77 区 到 355 

C8) C4 Ts]; Tey 

[4h EG i 

(10) (一 ,a,96,Tio) 

CL aE MT 

a 

CL T= Ts =] 
请 注意 ,在 赋值 语句 左 部 的 下 标 变 量 地 址 (包括 可 变 部 分 和 不 变 部 分 ) 算 好 之 后 ,要 等 待 右 部 表 
达 式 算 好 才能 做 赋值 操作 。 另 外 赋值 语句 右 部 即使 遇 到 与 左 部 有 相同 的 下 标 地 址 ,还 是 得 计 
算 一 遍 ,这 是 语法 制导 所 要 求 的 ,其 间 宛 余 的 计算 要 等 到 优化 时 去 掉 。 


“7.5.4 ， 按 列 存放 的 赋值 语句 中 数组 元 素 的 翻译 


按 列 存放 时 计算 VARPART 和 CONSPART 的 地 址 与 按 行 存放 时 的 计算 略 有 差别 。 
CONSPART 部 分 是 在 编译 时 计算 ,与 生成 代码 无 关 , 不 讨论 。 而 VARPART=i 十 d (is 十 ds 
(ia… 十 ds(Cin 十 du iia)…)) 的 计算 不 能 按 下 标 式 出 现 的 顺序 从 左 到 右 进行 累计 , 它 必 须 待 
所 有 下 标 式 都 处 理 完毕 之 后 再 从 右 到 左 累 计 。 因 此 ,对 于 下 标 式 的 处 理 需要 一 个 栈 STACK 
(不 是 语义 栈 ) 来 记录 每 个 下 标 式 的 结果 值 , 或 者 是 符号 表 入 口 地 址 或 者 是 临时 变量 序号 。 待 
到 所 有 下 标 式 都 处 理 完毕 后 再 自 栈 顶 而 下 , 按 计 算 VARPART 的 公式 累计 它 的 值 。 

这 里 ,无 需 对 7. 5.3 节 中 的 文法 进行 改写 , 即 对 非 终结 符 V 和 elist 的 产生 式 可 沿 
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码 


V—>ilelist]| i 
elist>elist,E | 下 
但 对 elist->E 产生 式 归 约 时 ,要 建立 一 个 空 栈 STACK ,并 将 下 . PLACE 压 人 栈 内 ;在 elist->elist， 
王 产生 式 归 约 时 ,把 下 .PLACE 压 人 栈 内 ;在 ViLelist 产 生 式 归 约 时 ,要 将 STACK 栈 中 内 
容 依次 弹出 计算 VARPART 地 址 。 弹 出 过 程 POPLSTACK] 的 含义 是 从 STACK 栈 顶 移出 一 
项 内 容 , 栈 指针 减 1 。 
下 面 列 出 计算 按 列 存放 的 VARPART 部 分 的 语义 子 程序 。 


产生 式 语义 子 程序 
(1) 一 (4) 同 前 
(5) V—>i[elist] {IF ENTRY(i) + DIM#elist * DIM THEN 
ERROR ELSE 
BEGIN 


VP:=POP[STACK]; 
K:=elist * DIM; 
WHILE K>1 DO 
BEGIN K:=K—1; 
dr:=LIMIT (ENTRY (iD ,K); 
TERM:=POP[STACK]; 
T:=NEWTEMP:; 
GEN( * ,VP,di,T); 
GEN( 十 ,T,TERM,T); 
VP:=T; 
END 
IF (TYPE(ENTRY(i))A1) THEN 
GEN( * ,TYPE(ENTRY(i)) .VP,VP); 
V» OFFSET:=VP; 
T:=NEWTEMP:; 
GEN(— .HEAD(ENTRY(i)),CONS(ENTRY()),T); 
V. PLACE:=T 


END} 
(6) Vi { 同 前 } 
(7) elist—>elist™ ,E {elist 。 DIM:=elist™” 。DIM 十 1; 
把 EE. PLACE 压 和 人 STACK 栈 } 
(8) elist™E {elist * DIM= 1; 


建立 一 个 空 栈 STACK; 
把 下。 PLACE 压 人 STACK 栈 } 
对 于 和 嵌 套 数组 的 情况 ,STACK 栈 可 公用 ,DIM 相当 于 栈 指 针 。 
例如 , 设 数组 A 的 说 明 是 array [1:10,1:20,1:30], 每 个 数组 允许 占 2 个 字 单 元 , 首 地 址 
为 a。 赋 值 语句 X: 王 ALI 二 1,J,Kx*5] 的 四 元 式 序列 为 : 
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(下 《二 ,TD 

(2 EK Ty 

C3 Cus Tas20, Ty 

(C4) (+ ,Ts J, T;) 

(5X CET 0T 

665 十 Tis Trs Ti) 

[a 

(8) (一 ,a,422,T;) /xC=(l+di+di* ds)*2=422*/ 
(9) (=[ ],Ts[LT4] ,一 ,Te) 

(10) (:= ,Te ,一 ,X) 


7.6 过程 调用 语句 


过 程 调 用 的 实质 是 把 程序 控制 转 到 子 程序 (过 程 段 )。 在 转 到 子 程序 之 前 必须 用 某 种 办 法 
把 实际 参数 的 信息 传递 给 被 调用 的 子 程序 ,并 且 应 该 告诉 子 程序 在 它 工 作 完毕 后 返回 到 什么 
地 方 (返回 地 址 ) ,对 于 动态 数据 区 分 配 还 要 保存 老 数据 区 首 址 ,传递 全 局 display 地 址 。 对 于 
后 两 点 留 到 下 一 章 介绍 。 现 在 的 转子 指令 大 多 在 实现 转移 的 同时 就 把 返回 地 址 (转子 指令 之 
后 的 那 条 指令 地 址 ) 放 在 内 存 某 栈 区 或 专用 寄存 器 中 ,因此 返回 地 址 并 没有 什么 需要 特殊 考虑 
的 问题 。 关 于 参数 传递 方面 ,不 同 的 机 器 采用 不 同方 法 。 一 般 来 说 ,可 以 把 参数 先 传递 到 一 个 
公共 区 域 ,而 那 区 域 是 其 他 过 程 可 以 取得 到 的 , 当 进 入 过 程 之 后 ,再 将 参数 从 该 区 域 中 取出 , 送 
到 过 程 的 形式 参数 数据 区 中 。 或 者 直接 把 实际 参数 传递 到 被 调 过 程 的 形式 参数 单元 (下 一 章 
详细 介绍 ) 。 参 数 的 传递 根据 不 同 机 器 也 有 不 同 的 形式 ,有 传 地址 、 传 值 和 传 名 之 分 。 下 面 我 
们 先 介绍 参数 传递 的 几 种 形式 ,然后 再 以 传 地 址 为 例 , 介 绍 在 编译 时 要 做 哪些 工作 ,如 何在 语 
法 制导 下 实现 参数 传递 。 


7.6.1 参数 传递 


定义 和 调用 过 程 是 程序 语言 的 主要 特征 之 一 。 过 程 是 模块 化 程序 设计 的 主要 手段 ,同时 
也 是 节省 程序 代码 和 扩充 语言 能 力 的 主要 途径 。 

一 个 过 程 一 旦 定义 后 就 可 以 在 别 的 地 方 调用 它 。 调 用 与 被 调用 的 信息 往来 主要 是 通过 参 
数 传递 或 函数 名 实现 。 参 数 分 为 实际 参数 ( 实 参 ) 与 形式 参数 ( 形 参 )。 实 际 参数 是 施 调 过 程 中 
提供 给 被 调 过 程 的 变量 、 值 .表达 式 、 数 组 等 ;形式 参数 是 被 调 过 程 中 准备 接受 实际 参数 的 单 
元 ,在 被 调 之 前 , 它 的 内 容 是 毫 无 意义 的 。 在 许多 语言 中 都 要 求实 参与 形 参 的 个 数 相等 、. 类 型 
一 致 .顺序 对 应 。 

1) 传 地 址 (Call by reference) 

所 谓 传 地 址 是 指 把 实际 参数 的 地 址 传递 给 相应 的 形式 参数 单元 ,简称 形式 单元 。 如 果实 
际 参 数 是 一 个 变量 (包括 下 标 变量 ), 则 直接 传递 它 的 地 址 ;如 果实 际 参 数 是 常数 或 其 他 表达 式 
(如 A 十 B) , 那 就 先 把 它 的 值 计算 出 来 并 存放 在 某 一 临时 单元 之 中 ,然后 传递 这 个 临时 单元 的 
地 址 。 当 程序 控制 转 入 被 调用 过 程 之 后 ,被 调用 段 首先 把 实 参 地 址 从 连接 数据 区 中 读 入 形 参 
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单元 ( 若 已 直接 传 至 形 参 单 元 ,此 步 不 做 ) 中 。 过 程 体内 ,对 形式 参数 的 任何 引用 或 赋值 都 被 看 
作对 形 参 单元 的 间接 访问 。 对 形 参 单元 的 间接 引用 并 不 改变 实 参 单 元 的 内 容 , 但 对 形 参 单元 
的 间接 赋值 将 直接 修改 实 参 单 元 的 内 容 。 因 此 ,用 户 在 使 用 传 地 址 方式 进行 过 程 调用 时 必须 
小 心 谨慎 。 当 然 , 对 形 参 单元 的 赋值 也 可 直接 从 调用 段 带 回 所 希望 的 结果 。 例 如 ,对 于 下 面 的 
FORTRAN 过 程 : 
SUBROUTINE INCSWAPCM,N,O) 
M=M+1 
J=N 
N=0 
O=J 
RETURN 
END 
现在 有 调用 语句 CALL INCSWAP(I,1,K[1]) ,假定 在 调用 程序 中 I=3,K[3]=5,K[4]=10， 
那么 当 进 入 过 程 后 ,相当 于 执行 下 列 的 指令 步 又， 
1. M:=1;N:=1;O:=K[1], /* 实 参 地 址 传 到 形 参 单元 x / 
2. M1:=M‘ 人 +1 /* M^ 指 对 M 的 间接 访问 ,这 里 相当 于 将 变量 1 改 为 4*/ 
3. J:=N+; /x*J=4*/ 
4. N 人 一 Of 人 ， /对 NN 的 间接 赋值 ,相当 于 将 变量 I 改 为 5x / 
5. O¢ =]J; 

执行 结果 是 返回 调用 段 时 I=5,K[3]=4,K[4]=10。 

由 于 过 程 体内 在 运行 时 会 修改 实 参 内 容 , 因 而 往往 会 产生 一 些 不 希望 的 结果 。 所 以 
FOR-TRAN 以 后 的 版 本 中 增加 了 一 种 传递 参数 的 类 型 , 称 * 传 结果 ”(call by result) , 它 是 
在 传 地 址 的 基础 上 作 了 点 改动 。 其 实质 是 每 个 形式 参数 对 应 两 个 单元 ,第 一 个 单元 存放 实 参 
地 址 ,第 二 个 单元 存放 实 参 的 值 。 在 过 程 体 中 对 形 参 的 任何 引用 或 赋值 都 被 看 成 对 它 的 第 二 
个 单元 的 直接 访问 。 但 在 过 程 结 束 返回 前 必须 把 第 二 个 单元 的 内 容 存放 到 由 第 一 个 单元 所 指 
的 那个 实 参 单元 中 。 

如 果 按 传 结果 传递 参数 ,也 用 CALL INCSWAP(I,I,KLI]) 语 句 调用 上 列 过 程 , 假 定 初 值 
还 是 1=3,K[3]==5,K[4]==10, 那 么 从 过 程 返回 后 I 王 5,KL3] 王 3,KL4] 王 10, 与 传 地 址 调用 
的 结果 不 同 。 由 于 FORTRAN 编译 程序 对 “ 传 地 址 ”和 “ 传 结果 ”两 种 参数 传递 方法 都 得 处 理 ， 
从 而 增加 了 编译 程序 的 复杂 性 。 所 以 , 传 结果 这 种 参数 传递 方式 的 使 用 并 不 普遍 。 

2) 传 值 (Call by value) 

这 是 一 种 最 简单 的 参数 传递 方法 。 调 用 段 把 实际 参数 的 值 计算 出 来 ,然后 将 这 些 值 直接 
传送 到 形式 参数 单元 中 。 在 过 程 体 中 使 用 这 些 单元 像 使 用 局 部 量 那样 ,与 调用 段 无 关 , 因 而 也 
无 法 修改 实 参 单元 的 值 。 对 于 上 面 的 INCSWAP 例子 , 若 采 用 传 值 方式 传递 参数 , 则 使 用 语 
名 CALL INCSWAP(I,I,K[I]) 将 不 返回 任何 结果 ,也 即 原先 的 值 并 没有 被 改变 。 

3) 传 名 (Call by name) 

这 是 ALGOL 60 所 定义 的 一 种 特殊 的 形 - 实 参数 结合 方式 。ALGOL 60 使 用 “替换 规则 ” 
来 解释 “ 传 名 ”。 过 程 调用 的 作用 相当 于 用 被 调用 段 的 过 程 代替 调用 语句 ,并 且 过 程 体 内 所 有 
形式 参数 名 皆 用 相应 的 实际 参数 名 来 代 蔡 。 在 替换 时 ,如 果 发 现 过 程 体内 的 局 部 名 和 实际 参 
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数 中 的 名 相同 时 , 则 应 理解 成 不 同 标 识 符 , 分 配 不 同 单元 。 最 好 在 替换 前 将 实 参 做 些 标志 ,以 
免 出 现 这 种 不 必要 矛盾 。 

例如 ,对 于 前 面 的 过 程 INCSWAP ,假定 采用 传 名 方式 传递 实 参 , 则 过 程 调用 语句 CALL 
INCSWAP(I,I1,K[ 了 1]) 的 作用 等 价 于 执行 下 面 的 语句 : 


:一 I 十 1; 
J]:=1; 

二 六 [到 ， 
K[1]:=]; 


如 果 初 值 还 是 1=3,K[3]=5,K[4j=10, 执 行 这 些 语句 后 结果 是 1=10,K[3]=5,K[10]=4。 
显然 和 前 面 三 种 的 结果 都 不 相同 。 
由 于 传 名 方式 存在 一 些 副 作用 ,效率 也 比较 低 , 现 在 一 般 语言 都 不 用 它 。 


7. 6.2 过 程 调用 语句 的 翻译 


下 面 以 传 地 址 为 例 , 介 绍 过 程 调用 语句 翻译 。 根 据 前 面 的 介绍 ,过 程 调用 : 
CALL S(A+B,2) 


大 致 应 译 成 ， 

k 《十 六 /* 计算 表达 式 */ 

k 十 1 (par, 一 ,一 ,T) /* 传递 第 一 个 参数 * / 

下 秆 名 (Baty— 3 — 3 /* 传递 第 二 个 参数 * / 

k 十 3 (jsr, 一 ,2,S) /转子 指令 , 转 到 S 过程 ,有 两 个 参数 * / 
这 里 (par, 一 ,一 ,T) 的 含义 是 将 参数 工 传 递 到 一 个 公共 的 区 域 或 直接 传递 到 过 程 的 形 参 


单元 。 所 以 ， 这 条 四 元 式 翻译 威 什么 样 的 目标 代码 由 具体 机 器 进 行 解释 。(jsr, 一 ,n,S) 是 一 
条 转子 指令 ,转移 到 S 过 程 的 四 元 式 入 口 序号 。 若 (jsr, 一 ,n,S) 这 条 指令 序号 是 k, 则 返回 地 
址 就 是 k 十 1。 
考虑 一 个 描述 过 程 调用 语句 的 文法 : 
S—call i(arglist) 
arglist—>arglist,E 
arglist>E 
为 了 在 处 理 实际 参数 串 的 过 程 中 记 住 每 个 实际 参数 的 地 址 ,以 便 最 后 把 它们 排 在 转子 指 
令 前 面 一 起 传送 出 去 ,需要 设置 一 个 语义 队列 QUEUE, 每 当 arglist>E 产生 式 或 arglist>ar- 
glist, 忆 产生 式 归 约 时 ,把 玉 ，place 添加 至 队列 之 尾 。 等 到 实际 参数 扫描 完 ,进行 Scall i 
(Carglist) 产 生 式 归 约 时 ,把 队列 中 元 素 从 头 到 尾 依 次 取出 到 p 并 生成 一 系列 (par, 一 ,一 ,p)， 
最 后 产生 一 条 (jsr, 一 ,n,ENTRY(i)) 四 元 式 , 其 中 n 是 参数 的 数目 。 
过 程 调用 语法 制导 翻译 的 语义 子 程序 为 ; 
产生 式 语义 子 程序 
(1) S->call i (arglist) {n:=0; 
FOR 队列 arglist。QUEUE 中 的 每 一 个 p DO 
(GEN(Cpar, 一 ,一 ,p)in: 王 n 十 1); 
GEN(jsr,—,n,ENTRY(i))} 
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(2) arglist>arglist™ ,下 { 把 E。PLACE 添加 入 arglist?。QUEUE 末端 ; 
arglist * QUEUE.: =arglist™ 。QUEUE} 
(3) arglist>E {建立 一 个 arglist* QUEUE 空 队列 ; 
arglist。QUEUE: 王 队列 QUEUE 头 ; 
将 EE，PLACE 添 和 人 队列} 
其 中 ,arglist。QUEUE 存放 队列 头 指针 , 它 存 于 QUEUE 语义 栈 。 


7.6.3 过 程 调 用 和 数组 元 素 相 混淆 的 处 理 


许多 程序 语言 的 数组 元 素 ( 下 标 变量 ) 和 过 程 (或 函数 ) 调 用 语句 在 外 部 形式 上 没有 什么 区 

别 ,比如 : 

X= A 
的 赋值 语句 中 ,A(I,J]) 是 下 标 变 量 呢 ?还 是 调用 过 程 (函数 )A 的 语句 ? 这 种 二 义 性 造成 了 语 
法 制导 翻译 的 困难 。 因 为 ,语法 制导 翻译 纯粹 是 按 语 法 规则 (产生 式 ) 机 械 执行 的 。 

如 何 解 决 这 个 问题 呢 ? 回答 是 查 符号 表 。 因 为 在 符号 表 中 已 登记 了 A 是 过 程 名 还 是 数 
组 名 。 然 而 这 种 回答 意味 着 把 A(I,J) 中 的 第 一 个 表达 式 I 归 约 为 elist 或 arglist 之 前 要 查 符 
号 表 , 根 据 查 得 的 结果 决定 用 elist->E 或 arglist->E 产生 式 进行 归 约 。 也 就 要 求 回溯 到 A 的 
现场 去 查 符号 表 , 以 决定 以 后 的 归 约 操作 。 

一 种 较 好 的 解决 办 法 是 ,让 词法 分 析 器 在 发 送 单词 A 的 类 号 之 前 先 查 询 符 号 表 。 当 它 发 
现 A 是 一 个 过 程 (函数 ) 名 时 就 把 A 作为 一 个 proc i 的 类 号 送出 ,否则 作为 一 般 的 标识 符 i 的 
类 号 送出 。 这 样 ,就 可 以 毫 无 困难 地 实现 语法 制导 翻译 。 但 是 ,词法 分 析 器 要 判断 出 一 个 标识 
符 是 否 代 表 一 个 过 程 名 也 是 不 容易 的 ,因为 这 就 要 求 在 引用 数组 元 素 或 调用 过 程 之 前 必须 对 
数组 和 过 程 加 以 说 明 , 如 果 有 些 语言 允许 数组 引用 出 现在 说 明之 前 ,那么 要 求 编译 程序 至 少 要 
扫描 两 遍 。 


7.7 说 明 语 句 的 翻译 

绝 大 多 数 程序 语言 的 说 明 语句 不 产生 中 间 代 码 。 对 于 说 明 语句 ,其 编译 的 任务 是 : 

(1) 登记 符号 表 , 包 括 填 名 字 及 有 关 属 性 ; 

(2) 为 变量 分 配 内 存 地 址 (相对 地 址 ), 包 括 内 情 向 量 表 地 址 及 构造 部 分 或 全 部 内 情 向 
量 表 。 

词法 分 析 虽 然 也 查 造 符号 表 , 但 因为 不 知道 标识 符 的 属性 ,对 该 标识 符 所 处 的 环境 也 一 无 
所 知 ,特别 是 在 分 程序 结构 的 语言 中 , 它 允 许 过 程 嵌 套 ,所 以 那 时 的 符号 表 很 不 成 熟 ,推迟 到 现 
在 再 来 构造 符号 表 是 合理 的 。 下 面 先 介绍 符号 表 的 一 般 结构 .然后 再 介绍 说 明 语句 的 有 关 文 
法 及 其 相应 的 内 存 地 址 分 配 等 操作 。 


7.7.1 分 程序 结构 的 符号 表 
ALGOL,Pascal 以 及 Ada 等 语言 不 但 允许 过 程 递归 调用 还 允许 过 程 嵌 套 。 这 些 语言 的 


标识 符 具 有 以 下 人 性质: 

(1) 所 有 标识 符 必须 先 定 义 后 使 用 ; 

(2) 标识 符 的 使 用 遵守 最 小 作用 域 原则 , 即 标识 符 的 使 用 范围 不 超出 定义 它 的 分 程序 ; 

(3) 同一 分 程序 内 标识 符 不 允许 重 名 ,不 同 分 程序 内 的 相同 标识 符 表 示 不 同 的 名 字 。 

[ 例 7. 5] 下 面 举 一 分 程序 结构 的 例子 ( 见 图 7. 11(a)) ,看 看 它 的 符号 表 应 包含 哪些 结构 。 

从 分 程序 结构 上 看 ,本 程序 由 三 层 组 成 。 第 0 层 为 主 程序 MAIN; 第 1 层 有 2 个 并 列 过 
程 :过 程 P 和 过 程 R; 第 2 层 只 有 函数 Q, 它 嵌 套 于 了 过 程 中 。 从 变量 作用 域 来 说 ,函数 Q 中 
的 变量 X 的 作用 域 仅 限 于 Q; 过 程 P 中 变量 X 的 作用 域 也 仅 限 于 P, 因 为 Q 中 的 X 已 另外 说 
明 ,尽管 类 型 相同 , 仍 被 认为 是 不 同名 字 ; 主 程序 中 的 变量 C 是 全 程 变量 , 它 在 所 有 过 程 中 都 
可 用 。 

为 了 表示 过 程 的 嵌 套 关系 ,给 分 程序 编 两 种 号 码 , 一 种 是 按 过 程 出 现 先 后 编 一 个 顺序 号 
(BLKN) ,并 为 每 一 个 顺序 号 建立 一 张 符号 表 ,序号 从 1 开始 ; 另 一 种 是 嵌 套 层次 号 (LN) 。 上 
例 中 ,程序 MAIN 的 层 号 为 0, 过 程 P.R 的 层 号 为 1, 函数 Q 的 层 号 为 2。 层 号 用 来 实现 对 直 
系 外 层 外 部 量 的 引用 。 上 例 中 在 函数 Q 内 如 何 引用 直系 外 层 的 变量 A,B,C? 这 个 问题 详解 
见 下 一 章 。 

为 管理 各 个 分 程序 中 的 说 明 信 息 和 各 分 程序 变量 间 的 相互 关系 ,符号 表 应 按 图 7. 11(b) 
设置 (这 里 只 画 出 部 分 分 程序 符号 表 )。 

(0) program MAIN; 
var A,B,C:real; 
(1) procedure P(var X:integer); 


var A,Y:integer; 
B:array[1..10,10..20] of real; 
oy function Q(var T:integer) :boolean; 
var X:integer; 


begin 


end; 
begin 
QCYYs 
end; 
(1) procedure R(var Y:integer); 
var X:integer; 
begin 
POXYs 
end; 
begin 
R(A); 
end. 
7.11(a) 分 程序 结构 示例 
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分 程序 总 表 BLKLIST 


7.11(b) 


图 7. 11(b) 中 分 程序 总 表 
(BLKLIST) 中 包含 各 分 程序 顺序 号 
(BLKN)\ 层 号 (LN) 以 及 符号 表 指 针 
(BLKP)。 每 扫描 一 个 分 程序 便 建立 一 
项 ,同时 建立 一 张 该 分 程序 符号 表 。 符 
号 表 通 常 由 名 字 (NAME) .种 属 (CAT )、 
类 型 (TYPE) 、 值 (VAL) 和 地 址 (AD- 
DR) 栏 组 成 。 种 属 栏 用 于 区 分 标识 符 
是 程序 名 、 过 程 名 、 函 数 名 、 形 参 、 数 
组 . 简 变 和 标号 等 不 同 种 属 的 单词 。 
类 型 栏 用 作 登 记 标 准 类 型 , 值 栏 用 于 
登记 常量 。 地 址 栏 用 作 变 量 的 内 存 地 
址 分 配 ,若是 数组 , 则 用 于 登记 其 内 情 
向 量 表 首 址 。 不 同 语言 采用 的 符号 表 
结构 也 不 相同 ,上 面 不 过 给 出 示例 罢 
了 。 针 对 图 7. 11(b) 的 分 程序 符号 表 
也 可 以 拟定 右 侧 算法 7.1 来 实现 对 它 
们 的 填写 。 

这 里 使 


j 层 号 计数 器 bn 来 控制 


整个 填 表 过 程 。 每 当 遇 上 “procedure” 或 “function” 时 bn 加 1, 当 遇 


主 程序 MAIN 
顺序 号 层 号 指针 的 符号 表 NAME| CAT | TYPE| VAL |ADDR 
BLKN LN BLKP a 
1 0 
2 1 | 
3 2 一 一 > 函数 Q 的 符号 表 


过 程 P 的 符号 表 


| 20*m 


注 ，m 为 下 标 变量 的 单元 数 


分 程序 结构 的 符号 表示 意图 


遇 “program ", 在 分 程序 总 表 BLKLIST 


建立 一 项 ，BLKN:=1 

bn:=0/* bn 用 作 层 号 计数 器 */ 
BLKN + LN:=bn 

申请 主 程序 符号 表 区 ， 首 地 址 为 p 
BLKN . BLKP:= 


扫描 主 程序 的 说 明 语 句 ， 并 查 填 第 BLKN 符 号 表 


bn:=bn—1 


et =BLKN+1 
n:=bn+1 
申请 分 各 序 BLKN 的 符号 表 ， 首 地 址 为 p; 
BLKN . LN:=bn 
BLKN . BLKP:=p. 
扫描 分 程序 BLKN， 并 查 夺 第 BLKN 符 号 表 


过 程 (或 函数 ) 结 束 符 时 它 
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减 1。 

有 了 上 述 的 符号 表 结 构 ,在 某 过 程 内 引用 标识 符 A 的 方法 如 下 : 设 该 过 程 的 层 号 LN 一 n， 
顺序 号 BLKN 王 m, 从 BLKLIST 表 开 始 查 BLKN 所 对 应 的 符号 表 , 若 查 不 到 A, 则 沿 层 号 减 
小 方向 查 ,首先 查 层 号 比 n 小 1 的 那个 分 程序 符号 表 , 若 当 层 号 为 0 时 仍 查 不 到 A, 则 A 为 未 
定义 错 ; 否 则 ,在 哪 一 层 查 到 就 算是 哪 一 层 的 。 这 个 过 程 是 符合 变量 先 定义 后 使 用 和 最 小 作用 
域 原则 的 。 

例如 ,车 在 上 例 的 函数 Q 中 引用 变量 A, 但 Q 的 符号 表 中 未 定义 A, 当 查 到 Q 的 直系 外 
层 P 的 符号 表 时 发 现 了 A, 这 种 引用 是 合法 的 。 

上 述 的 符号 表 管 理 技术 采用 的 是 线性 查找 技术 , 即 按照 标识 符 出 现 的 顺序 填写 符号 表 。 
这 也 是 目前 结构 化 程序 设计 语言 常 采用 的 一 种 技术 ,因为 结构 化 程序 设计 语言 是 采用 模块 化 
结构 ,每 个 模块 的 长 度 是 有 限 的 ,其 变量 也 不 多 ,所 以 查找 效率 受到 的 影响 并 不 大 。 而 且 由 于 
线性 表 的 结构 简单 ,节省 存储 空间 ,是 目前 编译 系统 中 用 得 最 广 的 一 种 。 

为 了 提高 线性 表 的 查找 速率 ,在 线性 表 中 增加 一 栏 一 一 指示 器 ,该 指示 器 把 所 有 的 项 按 
“最 新 最 近 ” 访 问 原则 连 成 一 条 链 。 任 何 时 候 , 这 条 链 的 第 一 个 所 指 的 项 是 那个 最 新 最 近 被 查 
询 过 的 项 ,第 二 个 所 指 的 项 是 那个 次 新 次 近 被 查询 过 的 项 ,以 此 类 推 。 每 次 查 表 时 都 按 这 条 链 
进行 查找 ,一 旦 找到 ,就 修改 这 条 链 , 使 得 链 头 指向 刚 查 到 的 那 一 项 。 每 当 填 入 新 项 时 ,总 让 链 
头 指向 这 个 最 新 项 。 含 有 这 种 链 的 线性 表 叫 作 自 适应 线性 表 。 这 种 按 最 新 最 近 访 问 的 原则 常 
具有 较 大 的 被 访问 概率 。 

自 适应 线性 符号 表 结 构 如 图 7. 12 所 示 。 INFORMATION 
符号 表 中 增添 了 一 栏 LINK。 其 中 指针 


1 

AVA 为 符号 表 中 空白 区 首 址 , HEAD 为 链 2 
首 指针 。 图 7. 12 所 示 的 这 条 链 是 5 一 3 一 3 
2 一 1>4 一 6。 若 当前 访问 入 口 为 4 的 项 , 则 4 
HEAD—5 


链 变 成 4-5-~3- 一 2 一 ~1-~6。 

符号 表 管 理 技术 除了 采用 线性 表 外 ,还 
采用 二 又 排序 树 和 散 列 表 等 ,这 些 技术 都 很 
成 熟 ,而 且 适 用 于 大 型 表格 的 查 造 , 效 率 很 
高 。 这 些 技术 在 数据 结构 课 中 已 学 过 , 恕 不 
获 述 。 图 7.12 自 适 应 线性 符号 表 

下 面 介 绍 几 种 说 明 语句 的 翻译 : 

(1) 整 型 \ 实 型 说 明 语句 的 翻译 ; 

(2) 常量 定义 语句 的 翻译 ; 

(3) 数组 说 明 语 句 的 翻译 ; 

(4) 过 程 说 明 语 句 的 翻译 。 


6 
AVA 一 一 


7.7.2 整 型 . 实 型 说 明 语句 的 翻译 


先 介绍 几 个 过 程 : 
(1) 函数 过 程 ENTRY (i) 
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查 造 符号 表 , 若 无 i 项 则 开辟 一 项 ,在 NAME 栏 填 上 变量 


名 ji, 同时 返回 它 在 符号 表 的 人口 地 址 ; 若 已 有 ji, 只 返回 它 在 符号 表 的 人 口 地 址 ; 

(2) 过 程 FILL(P,A) 一 一 将 属性 A 填 到 了 所 指 符号 表 项 相应 栏 内 , 它 是 被 用 来 填 种 属 
CAT 和 类 型 TYPE 用 的 ; 

(3) 函数 过 程 ALLOCATION(T) 一 一 根据 T 的 属性 为 变量 分 配 存 储 单元 数 ,并 回 送 数 
据 区 指针 ,同时 让 数据 区 指针 指向 下 一 个 可 用 单元 。 

说 明 语句 的 语法 一 般 可 描述 如 下 : 


D->~integer namelist | real namelist 


namelist>namelist,i | i 
用 这 个 文法 来 制导 翻译 存在 着 这 样 一 个 问题 : 仅 当 把 所 有 的 名 字 都 归 约 成 namelist 之 后 才能 
把 它们 的 属性 登记 进 符号 表 。 这 意味 着 namelist 必须 用 一 个 队列 (或 栈 ) 来 保存 所 有 这 些 名 
字 。 一 种 更 好 方法 是 改写 文法 为 : 

D>D,i 


| integer i 


| reali 
这 样 ,就 能 在 从 左 到 右 扫 描 的 过 程 中 边 归 约 边 填 表 , 用 不 着 等 到 变量 都 归 约 后 才 填 表 。 现 在 ， 
我 们 来 定义 这 些 产 生 式 所 对 应 的 语义 动作 。 首 先 定义 一 个 非 终 结 符 语义 变量 D。 ATT, 它 用 
来 记录 该 说 明 语句 所 定义 的 属性 。 


语义 子 程序 描述 如 下 : 
产生 式 语义 子 程序 
(1) D>integer i {FILL(ENTRY(D ,int); 
D* ATT:=int; 
FILL(ENTRY(i),ALLOCATION(D. ATT)} 
(2) D>real i {FILL(ENTRY (i) ,real); 


D*» ATT.=real; 
FILL(ENTRY(i),ALLOCATION(D . ATT)} 
(3 D>D i {FILL(ENTRY(i),D.» ATT); 
D.» ATT:;=D®? . ATT; 
FILL(ENTRY(i) ,ALLOCATION(D. ATT)} 
如 果 说 明 语 句 文法 写成 
D->~var ID 
ID—>i,ID 
ID->~i:integer 
ID->~i:real 
形式 (实际 上 Pascal 语言 就 是 这 种 形式 ) ,那么 可 以 直接 利用 这 些 产生 式 写 语义 子 程序 。 不 过 
这 时 的 语法 制导 翻译 是 先 将 变量 移 进 栈 内 ,最 后 遇 上 类 型 说 明 符 integer 或 real 时 ,将 栈 顶 符 
号 串 i:integer( 或 i:real) 归 约 为 ID 并 填写 符号 表 , 接 着 再 归 约 次 栈 顶 …… 直至 var ID 归 约 为 
DD 才 结 束 。 也 就 是 说 它 是 按 变 量 的 逆序 填写 符号 表 。 按 这 种 方法 ,很 容易 写 出 相应 的 语义 子 
程序 来 实现 符号 表 的 填写 及 内 存 分 配 操作 。 
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7.7.3 常量 定义 语句 的 翻译 


常量 定义 文法 是 : 
(1) CONSTD—>CONST Constlist |e 
(2) Constlist™i=INT;Constlist 


(3) li=STR;Constlist 
(4) li=INT 
C5 li=STR 


其 中 ,INT 代表 某 常 量 ,其 值 在 常量 表 中 可 查 得 (用 ENTRY (INT) 过 程 );STR 代表 某 字 符 
( 串 ) 常 量 ,其 字符 串 在 符号 表 中 可 查 得 (用 ENTRY(CSTR) 过 程 )。 常 量 定 义 的 语义 动作 主要 
是 在 符号 表 中 为 变量 i 填写 其 值 .类 型 和 种 属 。 为 此 语义 子 程序 可 写作 : 
产生 式 语义 子 程序 
(4) Constlist™>i=INT {ENTRY(i) » VAL: =ENTRY(INT); 
ENTRY(i) »« TYPE: =int; 
ENTRY(GiD)。CAT:= 数 值 常量 } 
(5) Constlist™>i= STR {ENTRY(i) « VAL: =ENTRY(STR); 
ENTRY(i) »« TYPE: =char; 
ENTRY(GD)。CAT:= 字 符 常 量 } 
产生 式 (2) 的 语义 子 程序 同 (4),(3) 同 (5) ,产生 式 (1) 不 需 语 义 子 程序 。 如 果 词 法 分 析 不 填 造 
符号 表 , 这 时 的 语义 子 程序 略 有 修改 。 


7.7.4 数组 说 明 语 句 的 翻译 


数组 说 明 语 句 文法 假定 为 : 
A—i:array[Lalists|] of TYPE 
alists 一 alist 
| alists,alist 
alist™> int 


(DD 。。int(2) 


| int 
TYPE->~integer | real | bool | char 
其 中 ,int 表示 该 维 的 上 界 , 是 整数 ,而 下 界 隐 含 为 1;intW ,int” 分 别 表示 该 维 下 、 上 界 ;alists 
是 下 标 界 表 ;alist 是 单个 下 标 界 。 数 组 说 明 语句 的 语义 动作 主要 填写 符号 表 和 构造 内 情 向 量 
表 P。 假 定数 组 按 行 存放 ,内 情 向 量 表 结构 见 图 7. 10。 我 们 改写 文法 产生 式 并 给 出 语义 子 程 
序 如 下 : 


产生 式 语义 子 程序 
(1) A 一 Al of TYPE {FILL(P。，TYPE,t)}/ x* 用 类 型 t+ 填 和 人 内 情 向 量 表 x / 
(2) A1—>Az[Lalists] {FILL(P* C,C);FILL(P . n,DIM)} 


/* 填 内 情 向 量 表 的 C 和 维 数 nx / 
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(3) A: 一 i:array {L:=ENTRY(); 
FILL(L * CAT,'ARRAY'); 
申请 一 张 内 情 向 量 表 , 首 址 为 p,P:==p; 
FILLCL。ADDR,P); 


DIM :一 0} 
(4) alists—>alist {DIM: 王 DIM 十 1)/* 维 数 计数 器 加 1 x / 
(5) alists—>alists ,alist {DIM:=DIM+1} 
(6) alist>int {FILL(P，1sm,1);/* 第 DIM 维 下 界 填 1x/ 


FILL(P。uanm ,int);/ x 第 DIM 维 上 界 填 int*/ 
FILL(P。 dam ,int)}/* 第 DIM 维 尺寸 也 填 intx / 


(7) alist—>alt int®®? {FILL(P 。 ugn sint'® ); 
FILLCOP'* Cdys (int® —int +1))) 
(8) alt>int®™ ». {FILL(P 。 lan ,int‘? } 


(9) TYPE—>integer|*…| char { } 

上 面 的 语义 子 程序 是 针对 确定 的 数组 而 编写 的 ,可 变数 组 的 处 理 已 在 7.5.1 节 介绍 过 。 
上 述 语义 动作 主要 是 填 表 , 符 号 表 入 口 地 址 ENTRY(i) 存 于 语义 变量 L 中 ,内 情 向 量 表 的 人 
口 地 址 存 于 了 中 。 


7.7.5 过程 说 明 语 句 的 翻译 


假定 过 程 说 明 或 函数 说 明 的 首部 定义 具有 如 下 形式 : 
procedure( 过 程 名 )(( 形 参 表 )); 
或 
function( 函 数 名 )(( 形 参 表 )) :TYPE; 
当 分 析 到 它们 时 ,应 该 产生 计数 LN( 层 号 ) 和 BLKN( 顺 序号 ) ,建立 一 个 分 程序 符号 表 , 并 在 
BLKLIST 表 中 增加 一 个 表 项 。 在 分 程序 符号 表 中 填写 过 程 名 (或 函数 名 ) 、 形 参 名 及 其 有 关 
的 属性 。 为 此 写 出 如 下 产生 式 及 语义 子 程 序 : 


产生 式 语义 子 程序 
(1) PPP(parg) { } 
(2) P->PF(Cparg) :TYPE {FILL(L。TYPE,TYPE}) ;/ * 填 函 数 名 类 型 * / 
(3) PP—>procedure i {LN:=LN++1;BLKN:=BLKN+1; 


为 过 程 i 建立 一 个 分 程序 符号 表 , 设 其 首 址 为 p, 在 
BLKLIST 表 中 增加 一 行 ,将 BLKN,LN 和 p 填 入 ; 
L:=ENTRY(); 

FILL(L. CAT,'proc’)} 


(4) PF—>function i { 除 最 后 一 项 改 用 FILL(IL 。 CAT .function ) 外 ,其 他 同上 } 
(5) parg>arg: TYPE {FILL(K，。TYPE,TYPE))/ * 填 形 参 类 型 x / 

(6) parg—>arg: TYPE, parg {FILL(K * TYPE,TYPE)} 

(7) arg 一 1 {K:=ENTRY(D); 


FILLIK .CAT ,' 形 参 )}/ * 将 ' 形 参 ' 填 入 符号 表 的 CAT 栏 */ 
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7.8 输入 /输出 语句 的 翻译 


不 同 语言 的 输入 /输出 语句 差别 相当 大 ,格式 繁多 ,有 的 以 外 部 设备 为 中 心 来 解释 1/O 的 
含义 ,有 的 以 文件 为 中 心 来 前 述 I/O 语句 。 由 于 前 者 与 设备 关系 太 密 切 , 现 在 的 程序 设计 语 
言 大 多 采用 后 一 种 来 解释 1/O 语句 。I/O 语句 的 执行 是 由 一 组 计算 机 系统 内 定义 的 子 程序 实 
现 的 。 这 组 子 程序 称 作 1/O 控制 系统 ( 简 记 IOCS) 或 基本 1/O 系统 ( 简 记 BIOS)。 编 译 对 输 
和 人 /输出 语句 的 处 理 主要 是 将 这 些 语句 转换 为 这 些 系统 子 程序 所 要 求 的 参数 形式 ,然后 调用 这 
些 系统 子 程序 完成 I/O 语句 功能 。 可 见 , 不 同 机 器 及 不 同系 统 , 要 求 编译 程序 将 I/O 语句 加 
工 的 结果 也 不 同 。 所 以 ,无 法 讨论 通用 的 翻译 方法 。 下 面 我 们 以 Pascal 中 的 六 个 输入 /输出 
操作 来 介绍 翻译 的 基本 方法 。 

这 六 个 操作 的 关键 字 是 input,output,read,write,readln,writeln, 后 四 个 关键 字 表 示 开 始 
执行 一 个 I/O 过 程 ,而 且 忽 略 了 参数 表 中 格式 说 明 , 前 两 个 仅 作为 参数 提供 给 系统 。 如 果 需 
要 执行 不 带 文件 的 输入 /输出 操作 (比如 用 键盘 输入 、 终 端 显 示 输 出 ), 那 么 要 求 input 和 /或 
output 出 现在 程序 首部 的 参数 表 中 , 即 写作 

program( 程 序 名 ) (input,output); 
以 通知 系统 ,本 程序 需 不 带 文件 名 的 1/O 操作 (不 过 现在 好 多 Pascal 版 本 可 以 省 却 这 种 表示 
法 汉 

对 输入 /输出 语句 的 几 点 规定 : 

(1) 所 有 出 现在 参数 表 中 的 变量 必须 是 说 明 过 的 ; 

(2) 所 有 出 现在 write 或 writeln 的 表达 式 表 中 的 变量 必须 是 已 赋值 的 ; 

(3) 所 有 1/O 文件 都 是 顺序 文件 ,也 即 仅 考 虑 顺序 访问 ,不 考虑 直接 访问 和 索引 访问 ， 

(4) 忽略 参数 表 中 的 格式 说 明 。 

执行 读 语句 readln(ai ,as,… ,a,) 时 ,输入 子 程序 从 当前 文件 指针 位 置 开始 搜索 非 空 字符 
( 串 ) ,并 把 它 赋 给 ai 变量 ,这 时 当然 要 求 输入 串 的 类 型 与 a 类 型 匹配 ,输入 值 之 间 以 空格 为 
界 。 接 着 读 下 一 个 值 至 a,…… 直至 an 被 赋值 。 然 后 ,文件 指针 从 当前 位 置 跳 过 当前 行 的 剩余 
部 分 到 新 行 开 始 位 置 ,readln 便 执行 完毕 。 如 果 后 面 还 有 read(mi ,…,mk) 语 句 , 那 么 从 刚才 
文件 指针 的 位 置 接着 开始 读 。 不 过 这 次 没有 跳 行 操作 。 

write 语句 和 writeln 语句 用 于 向 顺序 文件 输出 。 执 行 writeln(Ei ,E, ,…,E.) 语 句 时 , 依 
次 将 表达 式 Ei 按 规定 宽度 输出 。 比 如 宽 行 打印 输出 ,每 个 Ei 占 m 个 位 置 。 那 么 当 n 个 值 都 
输出 完毕 后 ,打印 机 自动 退回 换行 到 下 一 行 开 始 位 置 。 这 里 要 求 每 行 打印 宽度 必须 大 于 等 于 
mxno 

描述 输入 /输出 功能 的 文法 可 写作 : 

(1) PROG 一 program i(e|'('PROG_PAR')');/ x* 这 里 *(” 和 “)” 是 终结 符 x/ 

(2) PROG_ PAR—>input| output| input,output; 

(3) READST—> (read| readln)'('ID')' 

(4) WRITEST—>(write| writeln) (ELIST ) 

要 实现 上 述 功能 ,很 容易 写 出 其 语义 子 程序 。 第 二 个 产生 式 归 约 时 ,根据 选择 的 不 同 候选 
式 ,将 一 个 语义 变量 分别 置 以 1 或 2 或 3。 这 样 ,就 容易 为 第 一 个 产生 式 配 置 以 下 语义 动 
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作 :{GEN(program, 一 ,y,ENTRY(i) )} ,其 含义 是 通知 系统 ,当前 程序 i 需要 哪 一 种 不 带 文件 
的 1/O 操作 。 第 三 个 产生 式 可 改写 并 设置 相应 语义 子 程序 如 下 : 


产生 式 语义 子 程序 
READST—read(ID) {n:=0; 
repeat 
依 指针 n, 从 队列 ID。 QUEUE 取出 一 项 iu; 
GEN(par,—,— ,i,); 
n: 一 n 十 1; 


until ID 。QUEUE 为 空 ; 
GEN(call,0,n,SYSIN)) 
其 中 ,(call,0,n,SYSIN) 指 令 中 第 二 元 为 “0” 表 示 read, 为 “1” 表 示 readln; 第 三 元 n 告诉 系统 
读 n 个 数据 ;SYSIN 为 系统 输入 子 程序 。 
ID>i {建立 一 个 ID. QUEUE 空 队 列 , 并 将 ENTRY(iD 添 人 队列 } 
ID-~>i,ID  { 把 ENTRY(iD 添 人 队列 的 末端 } 
第 四 个 产生 式 的 处 理 方式 与 第 三 个 产生 式 相似 ,只 不 过 最 后 形成 的 四 元 式 是 (call, w,n， 
SYSOUT) , 其 中 w 表示 操作 类 型 ,SYSOUT 为 系统 输出 子 程序 。 


7.9 自 上 而 下 分 析 制 导 的 翻译 


自 上 而 下 分 析 采 用 按 产生 式 推导 的 方式 进行 分 析 , 通 过 推导 自 左 至 右 地 产生 句子 的 各 终 
结 符 。 如 果 产 生 的 终结 符 与 输入 符号 相 吻 合 , 则 匹配 成 功 ;否则 ,认为 输入 串 有 错 。 利 用 自 上 
而 下 分 析 同 样 可 以 将 源 程序 变换 成 所 希望 的 中 间 代 码 , 只 不 过 LR 分 析 法 适应 更 多 文法 而 已 。 
实际 上 ,程序 设计 语言 绝 大 部 分 都 可 采用 自 上 而 下 分 析 , 并 生成 相应 中 间 代 码 。 我 们 的 EL 语 
言 就 打算 用 这 种 技术 。 所 以 ,我 们 这 里 专门 作 些 介绍 ,具体 实现 将 通过 上 机 来 完成 。 

自 上 而 下 分 析 的 优点 是 ,在 按 产 生 式 推导 的 中 间 任 何 一 步 都 可 以 添加 语义 子 程序 。 比 如 
X>abc 是 一 个 产生 式 , 则 在 识别 出 a,b,c 之 后 都 可 以 添加 语义 ,无 需 待 到 整个 候选 式 匹 配 完 
之 后 ,也 就 是 说 它 不 必 改 写 文法 。 

下 面 以 递归 下 降 子 程序 为 例 , 讨 论 表 达 式 和 简单 语句 的 翻译 。 复 杂 语 句 与 说 明 语 句 的 翻 
译 可 以 仿照 写 出 。 


7.9.1 算术 表达 式 的 翻译 


算术 表达 式 文法 GCE) : 
E>E+TIT EE 人 T{ 站 开 
全 消除 左 递 归并 改写 es . 中 
F->(E)1i 成 扩充 BNF 表示 法 ; F>(E)|i 


为 每 一 个 非 终 结 符 画 出 转换 图 ,并 给 每 个 文法 符号 配 上 语义 动作 ,语义 动作 用 花 括号 内 省 略 号 
表示 , 见 图 7. 13。 
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1 


这- 
+ 人 
TE DO TE 9 se -但 
E 图 T 图 F 图 


7.13 算术 表达 式 状态 转换 图 


下 面 将 在 4.4 节 的 递归 下 降 分 析 程 序 基 础 上 添加 语义 动作 ,将 过 程 调用 改 为 函数 过 程 调 
用 ,并 把 语义 动作 置 于 花 括号 之 中 。 语 法 制导 翻译 过 程 如 下 : 
FUNCTION E:INTEGER 
BEGIN 
{E®? »« PLACE:=}T:; /< 调用 过 程 x/ 
WHILE SYM='+'DO 
BEGIN 
ADVANCE; 
{E®? »。 PLACE:=}T; /*x 调 用 过 程 T* / 
{Ti:=NEWTEMP:; 
GEN( 十 ,ED。PLACE,E2。PLACE,T); 
ED。PLACE:=Ti) 
END 
{E:=E® .。 PLACE)} 
END 
FUNCTION T:INTEGER; 
BEGIN 
{TD。PLACE: 一 }F; /< 调用 过 程 FE* / 
WHILE SYM='* 'DO 
BEGIN 
ADVANCE; 
{T 。PLACE: 二 }F;  /* 调 用 过 程 Fx/ 
{Ti:=NEWTEMP:; 
GEN(* ,TY » PLACE,T'? 。 PLACE,T); 
TY »。 PLACE.:=T,)} 
END 
{T:;=T® 。 PLACE} 
END 
过 程 中 ,用 到 的 语义 变量 不 再 用 语义 栈 单元 ,而 是 用 过 程 体内 的 局 部 变量 。 
FUNCTION F:INTEGER; 
BEGIN 
IF SYM='1THEN 
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BEGIN {F:=ENTRY(i);}ADVANCE END 
EISE IF SYM='d'THEN 
BEGIN {F:=ENTRY (d)+c;})ADVANCE END 
ELSE IF SYM='CTHEN 
BEGIN 
ADVANCE; 
{F:=}E; /* 调 用 过 程 */ 
IF SYM=')'THEN ADVANCE 
ELSE ERROR(1) 
END 
ELSE ERROR(2) 
END 
“i” 表 示 变 量 ,“d” 表 示 常 量 。ENTRY(d) 十 c 表示 常量 表 入 口 地 址 ,其 中 “十 c” 用 于 与 变量 
入 口 地 址 区 别 。ERROR(1) 表 示 缺 “)”,.ERROR(2) 表 示 缺 因子 ,它们 用 作 打 印 出 错 信息 。 


7.9.2 布尔 表达 式 的 翻译 


这 里 仅 讨 论 在 控制 语句 中 布尔 表达 式 的 翻译 。 
首先 我 们 写 出 无 二 义 的 布尔 表达 式 文法 ,并 简化 成 下 列 形式 : 


Eu 一 EuVTe|T E>T,{VT,} 
G(B) 二 Ni 消除 左 弟 归并 改 a pe 
J :1 lb bl 写成 扩充 BNF 式 ， 下 _ 
Fu 一 ip| F,|(E rop E) Fu 一 ip| 7 F,|(E rop E) 


按照 控制 语句 中 的 布尔 表达 式 翻 译 , 主 要 是 产生 一 组 转移 四 元 式 , 并 留 下 待 填 的 真 假 链 链 
首 。 下 面 的 程序 中 TC 表示 待 填 真 链 首 ,FC 表示 待 填 假 链 首 。 每 一 非 终 结 符 写 一 过 程 。 为 便 
于 阅读 ,下 面 不 再 将 语义 动作 用 花 括 号 括 起 来 。 
PROC E,(VAR E.TC, E. FC: INTEGER); 
BEGIN 
0 /* 调用 Te 过 程 */ 
WHILE SYM='V 'DO 
BEGIN 
ADVANCE; 
BACKPATCH(E® . FC, NXQ); 
TuE® S TCE < FCY; /=* 调 用 T 过 程 */ 
EY .TC:=MERG(E® . TC,E® .。 TC); 
Ev .FCS=EY «FC 
END:; 
Es TC:=E® 。 TC;E* FC:=E® «FC 
END; 
PROC T,(Var T* TC, T. FC: INTEGER) 
jey 
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BEGIN 
病人 /调用 Fs 过程 */ 
WHILE SYM='A'DO 
BEGIN 
ADVANCE; 
BACKPATCH(TD。TC, NXQ); 
下 人 CC /* 调 用 过 程 Fux* / 
TY 。FC:;=MERG(T®Y .FC,T? 。 FC); 
TW a TET TC 


END; 
TeTC=TeO TCT* FO=T® PC 
END; 
PROC Fb,(VAR F» TC,F » FC:INTEGER); 
BEGIN 


IF SYM= "i,'THEN 
BEGIN F. TC:=NXQ; 
GEN(jnz, ENTRY(i,),— ,0); 
F. FC:=NXQ; 
GEN(Gj,—,—,0); 
ADVANCE 
END; 
ELSE IF SYM='-'THEN 
BEGIN 
ADVANCE: 
F,(FtY 。 TC, FD 。 FC); /* 递归 调用 Fx*/ 
F*» TC:=FY .FC; 
F* FC:=F . TC; 
END 
ELSE IF SYM= "(THEN 
BEGIN ADVANCE; 
EY 。« PLACE:=E; /< 调 算术 表达 式 Ex/ 
IF SYM= 'rop' THEN 


BEGIN 
SYM =rop; 
ADVANCE; 


E” .PLACE:=E，  /* 调 算术 表达 式 下 * / 
F* TC;=NXQ; 
GEN(} SYM,;E® 。 PLACE;,E® «PLACE,0); 
F. FC:=NXQ; 


GENG ,一 ,一 ,0); 
IF SYM=')'THEN ADVANCE 
ELSE ERROR /* 缺 “)”x/ 


END 
ELSE ERROR ”/* 缺 “rop”*/ 
END 
ELSE ERROR /< 缺 布尔 量 */ 


END 
这 里 列 出 的 GCB) 文 法 是 作 了 点 约定 的 ,假定 关系 运算 必须 括 在 括号 内 。 若 不 这 样 约定 ， 
必须 在 词法 分 析 时 采用 超前 搜索 技术 ,将 布尔 量 和 一 般 变量 加 以 区 分 。 否 则 读 到 一 个 标识 符 
时 不 知 它 起 什么 作用 ,因此 也 就 无 法 进行 翻译 。EL 语言 的 G(B) 文 法 仅 考 虑 关系 运算 ,因此 
处 理 就 比较 简单 。 


7.9.3 简单 语句 的 翻译 


有 关 语 名 的 文法 可 写作 : 
S—if Eu then SO 改写 成 [SY if Eu then So TAIL 
| i E, then SO) else | [we sw le 
| while Ey do SY 
| begin L end 
| i: =E 
| read (IDT) 
| write (ET) 
|e 
L>*Ilss 
| S 
语句 翻译 除了 在 翻译 过 程 产生 相应 的 四 元 式 外 ,主要 是 获得 待 填 的 语句 链 的 链 首位 置 。 
PROC SCVAR S$。CHAIN: INTEGER); 
BEGIN ADVANCE; 
CASE SYM OF 
让 : BEGIN 
ADVANCE; 
E,(TC, FCO); 
IF SYM= 'then’ THEN 


ms ;9) 


BEGIN 
ADVANCE; 

BACKPATCH (TC, NXQ) 

S(S? . CHAIN); /递归 调用 S 过 程 */ 
END 
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ELSE ERROR; 
IF SYM= 'else’ THEN 
BEGIN ADVANCE; 
q:=NXQ;GENGQ,—,— ,0); 
BACKPATCH (FC,NXQ); 
SY . CHAIN:=MERG (SY . CHAIN,q) 


S(S® . CHAIN); /* 递 归 调 用 S 过程 */ 
S. CHAIN:=MERG (SY . CHAIN, S®? .+ CHAIN); 
END 
ELSE S. CHAIN:=MERG (FC.S® . CHAIN) 
END; 
‘while': BEGIN 
ADVANCE; 


QUAD: = NXQ; 
ECTO BCs 
IF SYM='do'THEN 
BEGIN 
ADVANCE; 
BACKPATCH(TC, NXQ); 
SCS. CHAIN); /* 递 归 调 S 过 程 */ 
BACKPATCH(S . CHAIN.QUAD); 
GEN(j,—,— ,QUAD); 
S. CHAIN:=FC; 
END 
ELSE ERROR 
END; 
‘i';BEGIN 
SYM :=SYM:; 
ADVANCE; 
IF SYM=':;='THEN 
BEGIN 
ADVANCE; 
E. PLACE:=E; /* 调 表达 式 下 函数 */ 
GEN(:=,E. PLACE,— ,ENTRY(SYM)); 
END 
ELSE ERROR:; 
S. CHAIN:=0 
END 


'begin :BEGIN 
ADVANCE; 
L(L.CHAIN); /* 调 工 过 程 */ 
IF SYM( )'end' THEN ERROR 
ELSE BEGIN 
ADVANCE; 
BACKPATCH(L .+ CHAIN, NXQ); 
END; 
S.CHAIN:=0 
END 
'read' :BEGIN 
ADVANCE; 
IF SYM ( ) (THEN ERROR 
ELSE BEGIN 
ADVANCE; 
IF SYM= THEN 
BEGIN 
ADVANCE; 


GEN(in, 一 ,一 ,ENTRY(i))， /* 输 入 四 元 式 , 这 里 没有 使 用 调 


用 系统 的 命令 形式 * / 


WHILE SYM=','DO 
BEGIN 
ADVANCE; 
IF SYM='iTHEN 
GEN (in, 一 ,一 ,ENTRY(i)) ELSE ERROR:; 
ADVANCE 
END; 
IF SYM ( ))'THEN ERROR 
ELSE ADVANCE 
END; 
S.CHAIN:=0 
END 
‘write’ :BEGIN ADVANCE; 
IF SYM ( )'(THEN ERROR ELSE 
REPEAT 


ADVANCE;PLACE:=E:; /* 调 表 达 式 记过 程 */ 
GEN (out, 一 ,一 ,PLACE); /* 输 出 的 四 元 式 形式 */ 
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UNTIL SYM ( 》， 
IF SYM ( ))'THEN ERROR; 
ADVANCE; 
S.CHAIN:=0 
END; 
ELSE ”/x 空 语句 x*/ 
END OF CASE 
END; 
PROC. L(VAR L. CHAIN:INTEGER); 
BEGIN 
S (LO .CHAIN); 
WHILE SYM=';'DO 
BEGIN 
ADVANCE; 
BACKPATCH (Lo . CHAIN,NXQ) 
S(L® .CHAIN); 
END 
L. CHAIN;=L®Y . CHAIN; 
END 


7.9.4 LL(1) 语 法 制导 翻译 


在 LL(1) 分 析 法 中 ,语法 制导 翻译 是 这 样 做 的 : 它 预 先 在 文法 产生 式 的 相应 位 置 上 嵌入 语 
义 动作 符号 (相当 于 一 段 语义 子 程序 ) ,用 来 提示 语法 分 析 程 序 , 当 分 析 到 达 这 些 位 置 时 ,应 调 
用 相应 的 语义 子 程序 。 带 有 动作 符号 的 文法 称 翻译 文法 。 为 了 与 文法 符号 区 别 起 见 ,我 们 把 
翻译 文法 中 每 个 动作 符号 a 用 花 括号 括 起 来 , 即 用 {a} 表 示 。 
在 翻译 文法 中 引入 动作 符号 ,而 不 需要 对 原 分 析 算 法 及 其 分 析 表 作 大 的 变动 ,就 能 在 自 上 
而 下 分 析 时 进行 翻译 。 动 作 符号 通常 表示 为 语义 子 程序 的 入 口 。 
与 递归 下 降 法 不 同 ,LL(1) 分 析 法 需要 使 用 语义 栈 记 录 分 析 过 程 中 的 语义 信息 。 而 LL 
(1) 分 析 法 中 的 语义 栈 操作 与 自 下 而 上 分 析 法 中 的 语义 栈 操作 大 不 相同 。 在 自 下 而 上 分 析 中 ， 
语义 栈 是 和 分 析 栈 同步 操作 的 . 即 文法 符号 和 相应 的 语义 信息 是 同时 进 栈 , 同 时 出 栈 的 (实际 
上 ,LR 分 析 时 文法 符号 不 必 进 栈 , 而 是 状态 进 栈 , 见 6.1 节 )。 但 在 LL(1) 分 析 法 中 ,对 语义 
栈 的 管理 却 不 是 这 样 的 。 下 面 以 赋值 语句 翻译 为 例 , 说 明 LL(1) 分 析 法 中 ,语义 栈 和 分 析 栈 之 
间 的 关系 。 下 面 是 带 有 动作 符号 的 赋值 语句 文法 ( 即 翻译 文法 ) 。 
G(TE): Aifal): 王 {az}E{as}》 
E>TE’ 
E' 一 十 {az}T{as)}E'|s 
下 
Tx {a}F{(a}T'|e 


F>(E)|i{a)} 

其 中 语义 动作 ai 一 as 主要 是 针对 语义 栈 操作 的 ,其 动作 含义 如 下 : 

al :查找 符号 表 , 取 变量 i 的 和 人口 地 址 , 即 取 ENTRY(i) ,并 将 其 移 进 语义 栈 。 

az :将 分 析 栈 栈 顶 与 读 头 下 匹配 的 符号 移 进 语义 栈 。 

as :弹出 语义 栈 栈 顶 三 项 , 即 做 M :二 POP;M;: 二 POP;Ms: 二 POP 和 GENCM: ,Mi ,一 ， 
Ms ) 。( 产 生 赋 值 四 元 式 。) 

ai :弹出 语义 栈 栈 顶 三 项 , 即 做 M :=POP;M, :=POP;M: :=POP;T:==NEWTEMP; 
GEN (Ms ,Ms ,Mi ,T) ;然后 做 PUSH T, 将 工 推进 语义 栈 。( 产 生 双 目 运算 四 元 式 。) 

例如 ,用 上 面 的 翻译 文法 ,采用 LL(1) 分 析 法 ,将 语句 A:=Bx*(C 十 D) 翻 译 成 中 间 代 码 的 
过 程 见 表 7.4。 从 例子 看 出 ,在 LL(1) 分 析 法 中 ,分 析 栈 与 语义 栈 相互 关系 不 大 ,各 自 与 对 方 
无 关 地 增长 或 减少 。 在 自 上 而 下 分 析 中 , 栈 顶 非 终结 符 总 是 被 不 断 地 替换 ,去 匹配 当前 读 
头 下 符号 。 因 此 ,各 分 析 步 中 的 语义 信息 和 语法 栈 并 无 明显 的 关系 。 这 种 无 关 性 使 得 语义 
栈 的 管理 比 起 自 下 而 上 分 析 时 语义 栈 的 管理 要 困难 一 些 。 在 例 中 ,语义 栈 内 ENTRY(i) 可 
简写 为 i。 


表 7.4 LL(1) 翻 译 过 程 
分 析 栈 输入 串 四 元 式 / 动 作 
A A:=Bx (C 十 D)# 


{as}E{las} := {a}i A:=Bx (C+D)# 推导 


{as}E{az}:= :二 Bx (C 十 D)# 


{as}E Bx (C+D)# 


{as } E'T'F Bx (C+D)# 


{a}E'T'{a}i Bx (C+D)# 


{a}E'T’ * (C+D)# 


{as}E'T' {a}F{az} * x(C 十 D) 井 


{as }E'T' {a}F -+D)# 


{as }E'T' {a})EC > 十 D) 井 
> 十 D) 井 匹配 不 移 进 
HD)# 推导 两 步 
HD)# 推导 

上 D) 井 


{as }E'T'{at ))E 


fas}E'T'{at ))E'T'F 


{as}E'T'{at})E'T'{anji 


{a}E'T'{a ET 


{as}E'T' (as })E/ HD)# 


{a}E'T'{a))E {a}T{a}+ HD)# 


{a}E'T{a))E {a}T 


D)# 


{a}E'T {a))E {a}T (a)i D) 井 


芭 | 加 | 要 | 本 | 归 | 区 | 本 | 芝 | 芝 | 区 | 营区 | 本]| 芝 | 区 | 区 | 知 


{as}E'T'{at)})E' {a}T’ ) 井 
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分 析 栈 


续 表 7.4 
四 元 式 /动作 


{as}E'T'{a))E' {a} 


(oT ta)y 


CD 


{as}E'T’ {a} 


匹配 不 移 进 


{as}E’ 


(x*,B,T,,T:) 


用 同样 方法 ,也 能 翻译 其 他 的 语句 。 例 如 ,WHILE 语句 的 翻译 文法 写作 : 
S—>while {wi} E do {ws} so {wa} 
其 中 : 
wi: 记 住 WHILE 语句 的 入 口 四 元 式 序 号 , 即 w.GUAD:=NXQ;PUSH w.GUAD。 
wz:( 布 尔 式 下 翻译 后 留 下 E。TC 在 栈 顶 ,E。FC 在 次 栈 顶 ,) M :=POP;BACK- 
PATCH(Mi ,NXQ); (回填 真 链 , 留 假 链 在 栈 顶 。) 
ws :(S 翻译 之 后 S2。CHAIN 在 栈 顶 。) 


Mi :=POP; SY . CHAIN>M, 

M; : = POP:; E. FC—>M; 

M; :=POP:; w* GUAD—>M; 

BACKPATCH(Mi ,Ms ); 用 w. GUAD 回填 So。CHAIN 

GEN(j ,一 ,一 ,Ms); 无 条 件 转 WHILE 开始 四 元 式 
S.CHAIN:=M,; 布尔 式 的 假 链 用 作 语 句 链 

PUSH S. CHAIN; 最 后 布尔 式 EE 的 假 链 作 为 语句 链 留 在 语义 栈 内 


只 要 掌握 利用 语义 栈 在 各 个 语义 动作 之 间 传 递 语义 信息 ,就 不 难 设计 其 余 语句 的 LL(1) 
语法 制导 翻译 的 方法 ,有 兴趣 的 读者 可 以 为 它们 拟定 相应 的 语义 动作 。 


“7. 10 属性 文法 与 属性 翻译 

在 LL(1) 语 法 制导 翻译 中 ,语义 栈 不 能 和 分 析 栈 同步 操作 ,管理 有 些 困 难 。 语 义 栈 的 管理 
问题 可 以 通过 消除 语义 栈 而 消除 。 为 此 ,我 们 为 文法 的 终结 符 、 非 终结 符 以 及 动作 符号 附加 语 
义 参 数 以 实现 消除 语义 栈 。 一 个 文法 符号 可 以 和 多 个 语义 参数 相关 联 ,这 些 参数 称 作 文法 符 
号 的 属性 。 在 属性 文法 中 ,是 利用 各 种 属性 而 不 是 语义 栈 作为 语义 动作 之 间 的 通信 介质 。 


7. 10.1 属性 文法 与 LL 属性 文法 


属性 分 为 两 种 ,一 种 是 继承 属性 (inherited attribute) ,其 属性 值 的 计算 按 自 上 而 下 方式 进 

行 , 即 产生 式 右 部 符号 的 某 些 属性 值 根据 其 左 部 符号 的 属性 和 右 部 其 他 符号 的 某 些 属性 计算 

而 得 ,这 种 属性 又 称 推导 型 ; 另 一 种 是 综合 属性 (synthesized attribute) ,其 属性 值 的 计算 按 自 

下 而 上 方式 进行 , 即 产生 式 左 部 符号 的 某 些 属性 根据 其 右 部 符号 的 属性 和 左 部 其 他 属性 求 得 ， 
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这 种 属性 又 称 归 约 型 。 
例如 ,下 面 是 综合 属性 的 一 个 例子 , 它 是 带 属 性 的 简单 表达 式 文法 ,每 个 属性 用 小 写字 母 表 
示 , 并 放 在 相应 文法 符号 的 右 下 角 , 列 于 产生 式 右边 的 是 属性 规则 (属性 间 关 系 ),“<-" 表 示 赋 值 。 


带 属 性 符号 产生 式 属性 规则 

(1) S.>E, sq 

(2) EE, op E, q<-r op t/ * op 为 运算 符 */ 
(3) EY (E.) q< 

(4) Es—C, qer 

(5) Ce 一 digit r< -digit。lexval 


假定 输入 串 为 3 十 5* 7, 其 翻译 过 程 可 用 图 7. 14 的 属性 翻译 树 表示 。 
从 翻译 树 可 见 ,其 信息 是 从 叶 结 点 沿 树 向 树 根 方向 传递 的 ,也 即 每 个 非 终结 符 的 属性 是 由 


其 子 结 点 符号 的 属性 确定 的 。 
再 举 一 个 继承 属性 的 例子 , 设 带 属性 的 说 明 语 句 文法 写作 
带 属性 符号 产生 式 属性 规则 
(1) S—real, V 一 LIST， ser 
(2) V—LIST, in {fill—type} ys V—LIST, (s1,t) sp<pl 
(3) VY—LIST in {fill—type}ss t<—s,p<—pl 


花 括 号 内 是 动作 符号 ,这 里 的 含义 是 用 类 型 t 来 填 人 口 地 址 为 p 的 符号 表 的 类 型 栏 。 规 
则 (sl,t) 一 s 表示 将 属性 s 自 上 而 下 传播 给 sl 和 t', 而 s 是 继承 了 real 的 属性 r。 规 则 p< 一 pl1 
表示 同 层 内 将 变量 i 的 入 口 地 址 pl 属性 传递 给 动作 符号 的 属性 p。 这 个 例子 说 明了 自 上 而 下 
或 同 层 内 传播 属性 的 方式 。 


8 
3 real V-LIST - 

1 -> 天 ~ 

Cp 下 下 i {fill-type),, VY-LISTY 
digit * lexval=3 CC,, Le et ~ 

| | i, {fill-type}p.t 
digit * lexval=5 digit * lexval=7 We 
图 7.14 属性 翻译 树 图 7.15 real i,i 属 性 翻译 树 
例如 ,说 明 语句 real i,i 的 翻译 树 如 图 7. 15 所 示 。 注 : 实 线 表 示 属 性 传递 ,虚线 表示 产 


生 式 。 

L 属性 文法 又 称 自 上 而 下 的 属性 翻译 文法 , 它 的 属性 规则 应 满足 : 

(1) 给 定 一 个 产生 式 , 右 部 某 一 文法 符号 的 继承 属性 值 是 其 左 部 的 继承 属性 或 产生 式 右 
部 但 位 于 该 文法 符号 左边 符号 的 任何 属性 的 函数 值 ; 

(2) 给 定 一 个 产生 式 ,其 左 部 符号 的 综合 属性 是 该 符号 的 继承 属性 或 产生 式 右 部 的 任意 
es 

(3) 给 定 一 个 动作 符号 ,其 综合 属性 值 是 该 动作 符号 的 继承 属性 的 函数 值 。 


假定 用 向 下 箭头 ( y 表示 继 承 属 性 ,用 向 上 箭头 (个 ) 表 示 综 合 属性 ,例如 个 a,b 表示 a 与 
b 是 综合 属性 , yc 表示 c 是 继承 属性 ,那么 下 面 的 表达 式 属性 文法 是 L 属性 文法 : 


带 属 性 符号 的 产生 式 属性 规则 

(1) S>E‘v {print} yw w<v 

(2) 下 人 v 一 T 个 xE' yytz yx;Vv<z 

(3) E'ystt—>+T aE ydte d<-s+ast<e 

(4) E'y stt—e t<—s 

(5) Tihv=>F xT' yy 人 z yx;Vv<ez 

(6) T'ystt>xFtaT’ydte d<—sx*a;t<c 

(7) T' ys 人 te fa 

(8) Ftv—>Itw Vow 

(9) Fv>(E‘w) Ve-w 
7.10.2 属性 翻译 


因为 我 们 是 采用 自 上 而 下 进行 语法 分 析 的 方式 ,因此 必须 采用 非 二 义 文法 ,并 且 是 消除 了 
左 递归 、 提 过 左 因 子 的 文法 ,在 此 基础 上 附加 属性 而 成 的 。 上 面 的 文法 正 是 按 这 种 原则 写 出 
的 。 该 文法 用 作 表 达 式 计 值 ,如 果 要 生成 某 种 中 间 代 码 , 可 以 在 属性 规则 的 相应 位 置 庶 入 语义 
子 程序 来 实现 。 

如 何 把 消除 了 左 递归 、 提 过 左 因子 的 文法 改造 成 可 进行 语义 分 析 和 翻译 的 属性 文法 呢 ? 
方法 是 为 每 个 文法 符号 附加 属性 变量 ,并 在 产生 式 右 部 适当 位 置 嵌 入 属性 规则 。 有 的 属性 规 
则 很 简单 , 仅 用 于 传递 语义 值 ,给 出 传递 指针 即 可 ;有 的 规则 比较 复杂 , 需 由 语义 子 程序 实现 。 

一 个 文法 符号 究竟 应 配 上 几 个 属性 变量 ? 这 由 具体 情况 决定 。 属 性 变量 是 为 语义 分 析 需 
要 而 建立 的 ,在 翻译 时 属性 变量 通常 是 用 于 存放 变量 或 常量 的 内 存 地 址 ,临时 变量 以 及 生成 目 
标 指令 的 地 址 和 各 种 链 值 等 。 有 的 文法 符号 不 需要 属性 变量 ,有 的 则 需要 一 个 或 几 个 。 属 性 
变量 分 为 继承 属性 和 综合 属性 ,继承 属性 用 于 存放 自 上 而 下 从 左 至 右 分 析 时 传递 的 语义 值 , 综 
合 属性 用 于 存放 终结 符 的 有 关 信 息 以 及 非 终 结 符 和 语义 子 程序 的 结果 值 。 语 义 子 程序 的 戏 人 
位 置 应 确保 它 的 动作 对 象 (继承 属性 ) 仅 依赖 于 产生 式 左 部 符号 和 (或 ) 该 语义 子 程序 左边 符号 
的 属性 ,而 依赖 于 语义 子 程序 结果 的 属性 必须 位 于 该 语义 子 程序 的 右边 。 

为 此 ,上 述 的 文法 可 改写 成 如 下 形式 的 属性 文法 。 其 中 花 括 内 的 标识 符 表示 语义 子 程 序 ， 
有 向 弧 号 表示 传递 继承 属性 (从 左 传 至 右 ) , 即 传递 语义 值 。 

(1) S>E‘¢v{print}y w 


(2) Ez—>T xE yx z 


| 


(3) E' ysf 人 人 = 十 Tf+afladd) ys,at dE yd 外 
| | | 
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(4) E' ystf>{echo} ys 外 


(5) Tz—>F xT' yx 个 z 


L_ | 


(6) T'ystf—>xFhaltmult}ys, af+dT'ydf+f 
| | | 


(7) T'ystf->{echo} y sf 
(8) Fhw—>I{ld} 个 w 


(9) Ftw—>(E‘w) 
其 中 : 
{print} y w 一 一 打印 子 程序 ,将 属性 值 w 打印 输出 ; 
{add} y s,af d 一 一 加 法 子 程序 , 即 做 d<-s 十 a; 
{echo) y sf 人 一 一 将 继承 属性 s 的 值 赋 给 综合 属性 f; 
{ld} 个 w 一 一 取 读 入 变量 或 常量 的 符号 表 入 口 地 址 到 综合 属性 w。 
利用 这 个 属性 文法 进行 LL(1) 语 法 制导 翻译 , 便 能 对 表达 式 进行 计 值 。 例 如 ,输入 串 为 8 
*7 间 ,其 制导 翻译 过 程 ( 假 定 栈 底 在 右边 ) 如 表 7. 5 所 示 。 
分 析 栈 可 以 是 这 样 的 结构 : 它 除 了 存放 文法 符号 外 ,就 是 存放 属性 值 及 指示 器 。 指 示 器 用 
以 表示 各 属性 之 间 的 联系 ,以 指明 该 属性 从 栈 顶 弹出 后 应 传递 到 相应 继承 属性 在 栈 中 的 位 置 
( 见 图 上 有 向 弧 连 线 ) ,而 属性 名 不 必 存 人 栈 内 。 所 以 属性 名 取 什 么 无 关 紧要 , 例 中 给 出 的 属性 
名 仅仅 为 了 阅读 方便 。 从 例子 可 见 , 它 是 把 分 析 栈 与 语义 栈 合 二 而 一 。 
为 进一步 理解 如 何 给 文法 增加 属性 ,下 面 给 出 IF 语句 的 属性 文法 的 例子 。 
(1) Sts—if Eeo,e{ii} yere tqthen So 个 si(iz)yaqystf 人 s 
(2) Shs—>if Ee ,et{ii} yee qthen SG 个 sielse(i}ysq+tS2 人 ssfiz)y 


t,s» ‘s 


表 7.5 LL(1) 语 法 制导 翻译 过 程 


步 又 输入 串 分 析 栈 
0 8x7 S 
1 8x7 Etviprint} yw 
2 8x7 TxE' yxtz{print} y wt# 
3 8x7 FxT' yxtzE yx tz{print} yw 
4 8x7 Ild} 个 xT' y xf zE' yxtz{print} yw 
5 关 闻 TY 8fzE yx 人 zfprint) y w 
6 x*7 xF a{mult} y8. af 人 dT' ydtfE yxtz{print} yw 
7 Fha{mult} y8, atdT'’ ydtfE yxtz{print} yw 
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续 表 7.5 
分 析 栈 
I{ld} ta{mult} y 8, af dT' ydtfE yxtz{print} yw 


{mult} y 8, 7 人 dT' y dtfE yxtz(print} yw 


T' + 56 个 fE yxf+zfprint) yw 


{echo} y 56 人 fE' y x+ zf{print}) y w 


E' y 56 人 zfprint) y w 


{echo} y 56 人 zfprint) yw 


{print}) y 56 


{i} yeo en tq 
BACKPATCH(e ,NXQ);/* 回 填 e, 即 E.TCx/ 

q: 一 eo;/ *eo 为 假 链 , 留 在 综合 属性 q 中 x*/ 

{i }yx,y 个 s/* 合 并 x,y 链 , 链 头 留 在 s 中 x*/ 
S.CHAIN:=MERG(x,y); 
s:=S.。 CHAIN; 

{is)y si,q 个 t/x* 产 生 转 移 指 令 , 回 填 假 链 q, 留 S 语 句 链 在 综合 属性 t 中 x/ 
T.CHAIN:=MERG(Cs ,NXQ);/ *T， CHAIN 为 临时 工作 单元 * / 
GENO ,一 ,一 ,05 
BACKPATCH(gq, NXQ); 
t:=T* CHAIN; 

由 上 可 见 , 这 些 子 程序 与 LR 分 析 中 的 语义 子 程序 很 相似 ,除了 它 的 语义 值 不 是 存在 语义 

栈 中 而 是 存在 属性 ( 即 分 析 栈 ) 中 。 


7.11 中 间 代 码 的 其 他 形式 


7.11.1 后 级 表示 法 


通常 将 运算 符 写 在 运算 量 之 间 , 例 如 a 十 b, 这 种 表示 法 称 为 中 缀 表示 法 。 后 缀 表示 法 又 
称道 波兰 表示 法 , 它 是 波兰 逻辑 学 家 卢 卡 西 维 奇 发 明 的 一 种 表示 表达 式 的 方法 。 这 种 表示 法 
把 运算 量 写 在 前 面 ,把 运算 符 写 在 后 面 (后 缀 ) ,例如 a 十 b 写作 ab 十 ,a 十 bx*c 写 作 abc* 十 ， 
(a 十 b) * c 写 作 ab 十 cx 等 等 。 一 般 而 言 , 若 0 是 一 个 k(k 宇 1) 目 运算 符 , 它 对 个 运算 量 ( 广 
义 地 说 是 k 个 后缀 式 )ei ,es,… ,er 作用 的 结果 将 被 表示 成 aez…ek0。 这 种 表示 法 不 带 括号 ， 
根据 运算 量 和 运算 符 出 现 的 先后 位 置 以 及 每 个 运算 符 的 目 数 ,就 完全 决定 了 一 个 表达 式 的 计 
算 顺 序 。 后 级 表示 法 的 特点 是 : 
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(1) 运算 量 的 排列 顺序 与 中 级 表示 法 相同 ; 
(2) 运算 符 是 按 运 算 的 顺序 排列 的 ; 
(3) 运算 符 紧 跟 在 被 运算 的 对 象 之 后 出 现 。 
我 们 可 以 用 下 面 的 文法 来 定义 表达 式 的 后 缀 表示 文法 (BNF) : 
《后缀 式 ): := 标识 符 )|( 后 绥 式 )( 单 目 算 符 》 
| (后缀 式 ) (后 级 式 )( 双 目 算 符 》 
( 单 目 算 符 )::==@ 
《 双 目 算 符 )::= 十 | 一 | * 1/ 
后 级 表示 法 虽然 不 符合 人 的 习惯 ,但 对 计算 机 来 说 ,可 以 很 容易 地 使 用 一 个 栈 来 计算 它 的 
值 或 转换 成 男 一 种 代码 。 因 此 , 它 便 成 了 编译 过 程 中 翻译 表达 式 的 另 一 种 常用 的 中 间 代 码 形 
式 。 下 面 主要 讨论 如 何 把 通常 的 中 级 表达 式 转 换 成 后 级 表示 法 及 后 缀 式 的 应 用 。 
1) 语法 制导 生成 后 缀 式 
(1) 利用 算 符 优先 分 析 法 进行 语法 分 析 。 
首先 ,为 分 析 过 程 设置 一 个 一 维 数组 POST 来 寄存 后 级 式 , 并 置 下 标 k :二 1。 然 后 再 为 
每 个 产生 式 配 置 如 下 相应 的 语义 子 程序 : 


产生 式 语义 子 程序 
(EOPES {POST[k]:=OP;k:=k+1} 
(2) EE 3 
《3% {POST[k]:=ENTRY(D);k:=k+1} 


假定 算 符 优先 分 析 表 已 造 好 ,就 可 利用 通用 算 符 优先 分 析 算 法 5. 2 进行 语法 分 析 。 在 对 
素 短语 进行 归 约 时 ,执行 如 上 的 语义 子 程序 , 便 可 获得 表达 式 的 后 缀 表示 。 
例如 ,表达 式 A * (B 十 C)# 翻译 成 后 级 式 的 过 程 如 表 7.6 所 示 。 


表 7.6 翻译 成 后 缀 式 


(2) 利用 优先 函数 进行 语法 制导 翻译 。 


假定 表达 式 的 优先 函数 如 下 表 所 示 


除了 下 推 栈 外 ,我 们 也 设置 一 个 一 维 数 组 POST 存放 后 级 式 , 并 令 下 标志 :二 1; 
POST[b 可 :=0; 下 推 栈 的 初始 指针 k:=1;SLk]:= 井 。 
下 面 拟定 一 个 语法 制导 翻译 算法 : 
@@ 从 左 至 右 扫 描 源 程序 串 ,每 次 读 一 字符 送 至 a 中; 
@ 若 g(a)>f(Cs[k]) , 则 k:=k 十 1,s[k]:=a, 并 转 (1); 
图 若 g(a) 二 f(s[k]), 则 s[k] 上 弹 并 送 至 POST[t] 中 ,t:=t 十 1,k: 二 k 一 1, 转 @; 
@ 若 g(a) = 二 f(s[kj]) 且 不 等 于 1, 则 上 弹 s[k],k: 二 k 一 1, 转 (1); 
@ 若 g(a) 二 f(s[kj) 二 1, 语 法 制导 翻译 结束 。 
例如 ,语句 A x* (B 十 C)# 的 翻译 过 程 如 表 7.7 所 示 : 


表 7.7 语句 翻译 过 程 


输 入 串 后 级 式 (POST) 
Ax (B 十 C) 井 


x* (B+C)# 


x* (B+C)# 


(B+C)# 


也 十 C) 井 


十 C)# 


十 C)# 


C)# 


)# 
)# 
)# 
# 
# 


2) 后 级 表示 法 的 计 值 或 产生 中 间 代 码 
利用 后 绥 式 计 值 的 过 程 是 : 自 左 至 右 扫 描 后 绥 式 ,每 磁 到 运算 量 就 把 它 推进 栈 , 每 碰 到 k 
目 算 符 就 把 它 作用 于 栈 顶 的 k 项 ,并 用 运算 结果 来 代替 这 上 项 。 
例如 ,考虑 后 缀 式 ab 十 cx 的 计 值 过 程 , 它 的 步 又 是 : 
(1) 把 a 推进 栈 ; 
(2) 把 b 推进 栈 ; 
(3) 将 栈 顶 两 项 相 加 ,并 从 栈 中 弹出 这 两 项 ,将 相 加 结果 压 人 栈 ; 
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(4) 把 c 推 进 栈 ; 
(5) 将 栈 顶 两 项 相 乘 ,并 从 栈 中 弹出 这 两 项 ,将 相 乘 结果 压 人 栈 。 
最 后 ,在 栈 顶 只 留 下 该 表达 式 计算 结果 。 若 要 生成 某 中 间 代 码 , 只 需 对 上 述 过 程 作 少许 改 
动 , 其 算法 可 写作 : 自 左 至 右 扫 描 后 级 式 , 每 磁 到 运算 量 就 把 它 推进 栈 ,每 磁 到 k 目 算 符 ,就 将 
它 作 用 于 栈 顶 的 k 项 ,并 生成 相应 的 中 间 代 码 , 且 以 结果 的 临时 变量 序号 代替 该 栈 顶 的 k 项 。 
按 这 样 的 过 程 ,我 们 能 将 后 级 式 abc 十 * 转换 成 如 下 四 元 式 : 
(二 ,b,c, Ti) 
Csa Tis Ts) 
3) 后 绥 式 的 推广 
只 要 遵守 运算 符 紧 跟 在 被 作用 的 运算 量 之 后 这 条 规则 ,就 可 以 很 简单 地 把 后 级 表示 法 推 
广 到 比 通常 表达 式 更 大 的 范围 。 下 面 是 推广 到 语句 翻译 的 例子 。 
(1) 赋值 语句 “A :二 E”, 其 后 级 式 表 示 成 "AF: 二”, 其 中 * :二 ”被 认为 是 双 目 算 符 , 它 的 动 
作 是 把 栈 顶 的 值 (或 临时 变量 序号 ) 送 到 次 栈 顶 变量 所 指 的 单元 中 ,运算 之 后 弹出 栈 顶 两 项 , 栈 
中 不 留 结 果 。 
(2) 转向 语句 GOTO LL ,其 后 级 式 写 作 *L'jmp”, 其 中 L' 是 转移 地 址 (指示 器 ), 用 POST 
中 的 下 标 值 表 示 。 
(3) 条 件 语句 “if x 之 y then m: 二 x else m: 一 y;”, 其 后 缀 式 应 写作 ， 


下 面 给 出 一 个 用 后 级 式 表示 的 程序 段 例 子 , 设 源 程序 如 下 : 
begin 
k:=100; 
L:if k>i+] then 
begin k:=k—1;goto L end 
else k:=i12—j 人 2; ;/ * 个 为 乘 寡 算 符 * / 
1: 一 0; 
end. 


其 相应 的 后 级 式 表示 为 : 


在 翻译 成 后 级 式 时 也 存在 拉链 回填 问题 。 它 与 其 他 中 间 代 码 的 翻译 方式 类 似 , 只 是 生成 
代码 略 有 差别 。 
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7.11.2 三 元 式 


表达 式 以 及 各 种 语句 都 可 以 表示 成 一 组 三 元 式 序 列 。 三 元 式 是 由 算 符 op、 第 一 运算 量 
AGR, .第 二 运算 量 ARG, 组 成 ,形式 如 下 : 
(op,ARG ,ARG,) 
它 仅 给 出 操作 数 单元 ,并 没有 给 出 结果 单元 。 
例如 ,表达 式 A 十 BxC 可 表示 成 : 
(1) (x ,B,C) 
(2) (十 ,A,(1)) 

三 元 式 (1) 代 表 Bx C, 三 元 式 (2) 中 的 “(1)” 指 第 一 个 三 元 式 的 结果 。 实 际 上 它 是 指示 器 ， 
指向 第 一 个 三 元 式 所 处 的 位 置 。 在 实际 实现 时 ARG1 ,ARG，, 都 是 指示 器 ,它们 或 指向 符号 表 
的 某 变量 入 口 地 址 ,或 指向 三 元 式 某 序号 。 而 存放 结果 的 单元 或 者 是 累加 器 或 者 认为 就 是 三 
元 式 本 身 。 三 元 式 表 示 法 的 特点 是 : 

(1) 把 存放 结果 的 单元 推迟 到 目标 代码 生成 阶段 去 处 理 ; 

(2) 在 格式 上 比 四 元 式 紧凑 ,从 四 元 变 成 三 元 ,节省 了 空间 ; 

(3) 三 元 式 不 利于 优化 ,因为 它 在 优化 时 不 能 简单 地 调换 次 序 ,而 必须 对 三 元 式 的 内 容 作 
相应 改变 。 

例如 ,A 十 Bx (C 一 D) 一 E/F x* * G 翻译 成 三 元 式 为 : 

(1) (一 ,C,D) (1) (一 ,C,D) 
(C2) BC (2) (* ,B,(1)) 


(3 (FAs (3) (# * ;FG) 

(4) (¥ * ,F,G) (4) (/,E,(3)) 

(5) (/,E,(4)) (5) (+ ,A,(2)) 

CW C= (6) (—,(5),(4)) 
(a) (b) 


其 中 ,(a) 列 是 按 语法 制导 翻译 的 结果 ,(b) 列 是 调换 (a) 列 中 次 序 (将 (3) 式 调 到 (5) 式 的 位 置 )， 
以 达到 某 种 优化 目的 。 由 于 采用 了 三 元 式 , 这 种 调换 不 是 简单 调换 位 置 ,还 改变 了 一 些 三 元 式 
的 内 容 ( 原 (5)、(6) 式 变 为 (4)、(6) 式 且 内 容 已 不 同 了 )。 所 以 ,三 元 式 不 利于 优化 。 下 面 以 表 
达 式 文法 为 例 ,给 出 语法 制导 生成 三 元 式 的 语义 子 程序 : 


产生 式 语义 子 程序 
(I ESE opE® {E. PLACE:=TRIP(op,E®Y . PLACE,E'? + PLACE)} 
(C2) EtE™) {E* PLACE:=E®Y . PLACE} 
(3) E>—E® {E* PLACE:=TRIP(@ ,ED . PLACE,—)} 
(4) Ei {E* PLACE:=ENTRY()} 


其 中 ,E。 PLACE 是 语义 变量 , 它 或 者 存放 某 变量 的 符号 表 入 口 地 址 ,或 者 存放 某 三 元 式 序 
号 ;TRIP(op,ARG ,ARG， ) 为 函数 过 程 , 它 产生 三 元 式 并 回 送 该 三 元 式 序号 ;op 为 双 目 运算 
符 十 5 一 5/ 等 。 
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7.11.3 间接 三 元 式 


为 了 便于 优化 处 理 , 作 为 中 间 代 码 , 常 常 不 直接 使 用 三 元 式 表 , 而 是 另 设 一 张 操 作 表 ( 称 间 
接 码 表 ) , 它 将 按 操作 的 先后 顺序 列 出 有 关 三 元 式 在 三 元 式 表 中 的 位 置 (序号 ) 。 也 就 是 说 , 间 
接 三 元 式 需要 两 张 表 : 

(1) 三 元 式 表 , 它 登记 迄今 已 生成 的 所 有 不 同形 式 的 三 元 式 ; 

(2) 操作 码 表 ( 间 接 码 表 ) , 按 引 用 三 元 式 的 顺序 存放 三 元 式 在 三 元 式 表 中 的 序号 。 

例如 ,表达 式 A 十 Bx (C 一 D) 一 E/F x* * G 生成 的 三 元 式 表 是 ， 


三 元 式 表 操作 码 表 
Cy C= C DY (1) (1) 
(2) (x* ,B,(1)) (2) ‘(2) 
(C3) CF A nC(2y (3 ‘C4) 
(4) (x*x x*,F,G) (4) (5) 


(5) (/,E,(4)) (5) (3) 
(6) (—,(3),(5)) (6) (6) 
在 优化 时 ,并 不 改变 三 元 式 表 本 身 , 仅 仅 调换 操作 码 表 中 的 顺序 。 这 里 的 操作 码 表 列 出 两 
列 , 右 列 调换 了 左 列 的 顺序 , 即 操作 顺序 改变 了 。 
再 如 ,语句 X:=(A 十 B) * C;Y:= 二 D(A 十 B) 生 成 的 三 元 式 表 是 ， 


三 元 式 表 操作 码 表 
(1) (十 ,A,B) C1 
CoC CY 《2 
(3) (:=,X,(2)) (3) 
(C4) {DID (由 
(5) (:=,Y,(4)) (4) 


(5) 
间接 三 元 式 的 缺点 是 ,每 生成 一 个 新 的 三 元 式 时 必须 查阅 三 元 式 表 , 若 表 中 没有 , 则 加 入 ; 
若 已 有 , 则 直接 引用 其 序号 ,所 以 比较 慢 。 但 由 于 需要 的 空间 小 (不 存在 重复 的 三 元 式 ), 所 以 
早期 的 一 些 机 器 中 也 曾 用 过 。 


7.11.4 树 


树 形 数据 结构 也 可 以 用 来 表示 中 间 代 码 , 它 主要 用 于 表示 表达 式 和 赋值 语句 等 。 例 如 : 
A+B (A+B)*C -A+B*C Y:=A/B-C 


把 一 个 表达 式 翻 译 成 树 形 表示 法 是 很 容易 的 ,下 面 列 出 的 语义 子 程 序 描述 了 这 种 翻译 
算法 : 


产生 式 语义 子 程序 
《和 古河 opE? {(E。VAL:=NODE (op,E®Y .+ VAL,E®? .« VAL)} 
Co EE {E.» VAL:=E® . VAL)} 
(93% B= {E. VAL:=UNARY(@,E® . VAL)} 
(4) Ei {E* VAL:=LEAPF(D)} 


其 中 ,E。VAL 为 语义 变量 , 它 指向 树 的 一 个 结 点 (指针 型 );LEAF(i) 为 叶 结 点 i 的 地 址 ;函数 
过 程 NODE(op,LEFT,RIGHT) 将 建立 一 棵 新 树 , 它 以 op 为 根 ,LEFT,RIGHT 为 左 、 右 枝 ， 
从 NODE 回 送 的 值 是 这 棵 新 树 根 的 地 址 ;UNARY(op,CHILD) 的 作用 与 NODE 相仿 ,不 过 
它 只 有 一 枝 CHILD。 

由 树 转换 成 目标 代码 是 很 简单 的 : 找 出 最 左 端 端点 已 知 的 子 树 编目 标 代码 ,结果 置 于 子 树 
根 中 , 砍 掉 端 点 ,重复 上 述 过 程 直 至 只 留 下 树 根 为 止 。 


习 题 
7-1 写 出 下 列 赋值 语句 的 LR 语法 制导 翻译 过 程 : 
(1) A:=(B+C)*D (2) A:=Bx (—C+D) 


(3) A:=—Bx(C+D)x*E (4) A:=(Ax*B)+(—Cx*D) 
7-2 将 布尔 表达 式 AV (BA (CVD)) 按 两 种 不 同 的 翻译 方法 译 成 两 种 四 元 式 序列 。 
7-3 翻译 下 列 语句 成 四 元 式 序列 。 
(1) while A<CAB<D do 
if A=1 thenC: 王 C 十 1 else 
while AZD do A:=A+2 
(2) if W=1 then A:=B*xC+D else 
repeat A:=A—1 until A<<0 
7-4 设 循环 语句 for i: 王 Eastep Euntil Edo So 若 翻 译 成 如 下 形式 ， 
i 
INCR.:.=E®?,; 
LIMIT: 王 ES ; 
again:if i>LIMIT goto NEXT 
begin 
SD 
i: =i+INCR; 
goto again 
end 
NEXT:… 
(1) 试 改写 文法 产生 式 , 并 给 出 自 下 而 上 翻译 的 语义 动作 ; 
(2) 按 这 种 形式 翻译 语句 
for I: =A++Bx2 to C 十 D 十 10 do 
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if HG then 
P; 王 P 十 1; 
成 四 元 式 序列 ( 设 step 二 1)。 
7-5 按 7.4.6 节 给 出 的 分 情 语句 的 翻译 语义 子 程序 , 写 出 下 列 语句 翻译 结果 。 


case i of 
1: A: 一 A 十 1; 
2,3:B: 王 B 十 2; 


4: begin C: 三 C 十 1;D:=D 十 1 end; 
5,6,7: D: =D*xD; 
else 
end; 
7-6 设 数组 A 的 说 明 语句 是 array[ 一 4:5, 一 3:3j, 假 定数 组 按 行 存放 ,存储 器 按 字 节 编 
址 ,每 六 个 字 节 为 一 机 器 字 , 令 数组 首 地 址 为 1 000, 问 
(1) A[1,]j 和 AL[LI 十 1,J 十 1j 的 地 址 是 什么 ? 
(2) 请 用 语法 制导 翻译 语句 ALI+1,J 十 1 :=0 成 四 元 式 序列 ， 
(3) 按 第 4 题 对 循环 语句 的 翻译 结构 ,翻译 下 列 语句 : 


for i: 王 一 4to 5 do 
for j :一 一 3 to 3 do 
A[i,jj:;=0 
成 四 元 式 序列 。 


7-7 对 于 下 面 的 程序 段 , 若 参数 传递 办 法 分 别 为 :@ 传 名 ;@ 传 地 址 ;@@ 传 结果 以 及 四 传 
值 ,试问 程序 执行 结果 输出 A 的 值 分 别 是 什么 ? 
program main 
proc P(X,Y,2); 
begin 
Y:=Y+1; 
Z:=2Z+X 
end 
begin 
A:=2; 
B:=3; 
P(A+B,A,A); 
print A 
end 
7 一 8 将 下 列 赋值 语句 A[I, 中 :二 BLA[I 十 1,J 十 1]] 十 BL[I 十 ]] 翻 译 成 中 间 代 码 ( 要 求 按 
语法 制导 翻译 ,数组 按 行 存放 ,每 个 下 标 变 量 占 n 个 字 节 ,参数 用 符号 表示 )。 
7-9 修改 下 面 的 文法 并 给 出 语义 动作 (便于 填写 名 字 的 属性 ) 。 
D—>namelist integer 


| namelist real 


namelist>i,namelist 
|i 
7 一 10 试 给 出 自 适应 线性 表 的 查 填 算法 和 查找 算法 (注意 修改 自 适应 链 ) 。 
7-11 给 出 下 面 表达 式 的 后 绥 式 表示 法 , 单 目 负 运 算 符 “一 ?用 @ 表 示 , 乘 方 “个 ”服从 右 


结合 律 : 


ax( 一 b 十 c) 7AV-7 CV-D) 
a 十 bx (c+d/e) (AAB)V (CVD) 
一 a 十 bx* (一 c 十 d) (AVB)A(CV -DAE) 


if(x 十 y) *z=0 then (a 十 b) 个 c else a 个 b+c 
7-12 请 将 表达 式 一 (a 十 b) * (c 十 d) 一 (a 十 b 十 c) 分 别 表示 成 三 元 式 、 间 接 三 元 式 、 四 元 
式 序列 以 及 树 形 结构 的 中 间 代 码 形式 , 设 单 目 负 * 一 ”优先 级 低 于 乘法 。 
7-13 用 算 符 优先 分 析 法 进行 语法 制导 翻译 , 写 出 算术 表达 式 的 算 符 优先 分 析 一 翻译 程 
序 。 要 求 在 通用 算 符 优先 分 析 算 法 5. 2 的 基础 上 加 进 语义 子 程序 。 
7-14 用 递归 下 降 分 析 法 进行 语法 制导 翻译 , 写 出 FOR 语句 .CASE 语句 和 包含 下 标 变 
量 的 赋值 语句 的 语法 制导 翻译 程序 。 
7-15 用 LL(1) 语 法 制导 翻译 , 设 IF 语句 的 翻译 文法 为 ， 
Sif E{i) then So {i,} 
Sif E{ii} then SV {is} elseS2 {1} 
请 写 出 i ~i 的 语义 子 程序 。 
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8 运行 时 数据 区 的 管理 


编译 程序 必须 为 目标 程序 的 运行 分 配 数据 的 存储 单元 ,其 中 包括 变量 单元 .常量 单元 、 临 
时 工作 单元 以 及 返回 地 址 等 。 例 如 ,有 一 程序 段 : 
PROC EXAM(X,Y ,2) 
2:=X12+Yx*I 
END 
翻译 成 四 元 式 序列 : 
(hh,X2 Ty 
1 
(Gl SY 6 yD, 
全 一 
(ret, 一 ,一 ,一 ) /*# ret 为 返回 指令 的 四 元 式 表 示 法 * / 
如 果 某 机 器 只 有 一 个 通用 寄存 器 Ri ,那么 将 它 转换 成 目标 代码 并 写成 如 下 汇编 语言 
形式 : 


LOAR Ri,X 
EXP Ri ,2 
STORE Ri , 工 
LOAD Ri,Y 
MULT Ri1,I 

ADD Ri , 工 
STORE Ri ,Z 
RET 


其 中 ,X,Y,Z 是 形式 参数 ,I 是 变量 ,2 为 常量 .T 是 临时 变量 , 除 字 面 常 量 外 它们 在 内 存 中 都 
占有 存储 单元 。 此 外 ,过 程 结束 回 到 主 调 程 序 是 按 返 回 地 址 返回 的 ,因此 内 存 中 还 需 保存 返回 
地 址 单元 。 可 以 想象 ,如 果 没 有 存放 这 些 数据 信息 的 单元 ,目标 程序 将 无 法 运行 。 

如 果 一 个 程序 设计 语言 不 容许 递归 调用 ,而 且 不 含有 可 变数 组 ,那么 在 编译 时 就 可 以 完全 
为 其 数据 项 目 分 配 存储 单元 。 这 种 分 配 存储 策略 叫做 静态 分 配 , 像 RORTRAN 就 是 属于 静 
态 存储 分 配 。 

相反 地 ,车 某 程序 设计 语言 容许 过 程 递归 调用 并 且 允 许 使 用 可 变数 组 ,那么 该 语言 的 数据 
空间 必须 采用 动态 存储 分 配 ,如 ALGOL ,Pascal.C 语言 就 属 这 一 类 。 根 据 变量 名 最 小 作用 域 
原则 ,目标 程序 的 操作 对 象 一 一 数据 区 可 以 用 一 个 栈 作 为 动态 数据 存储 分 配 。 运 行 时 ,每 当 进 
人 一 个 过 程 ,在 栈 顶 上 为 该 过 程 分 配 一 块 数据 区 ,一 旦 退出 该 过 程 , 它 所 占 的 那 块 空间 就 退回 
给 系统 ,这 种 分 配 叫 做 栈 式 存储 分 配 。 
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还 有 些 语言 ,如 Pascal, 有 标准 过 程 new(p) 和 dispose(p), 它 容许 用 户 随时 动态 地 申请 和 
释放 存储 空间 ,而 且 申 请 和 释放 之 间 不 遵守 先 申请 后 释放 或 后 申请 先 释放 原则 。 因 此 需要 一 
种 更 加 复杂 的 动态 分 配 策略 。 这 种 策略 是 让 运行 程序 持 有 一 个 大 的 存储 区 ( 称 为 堆 ) ,在 申请 
时 从 堆 中 取 一 块 ,释放 时 将 一 块 存储 区 退还 给 堆 。 这 种 办 法 叫做 堆 式 存储 管理 。 


8.1 静态 存储 管理 


FORTRAN 程序 的 特点 是 所 有 数据 名 的 类 型 和 属性 在 编译 时 是 完全 确定 的 ,因此 对 每 个 
数据 名 的 地 址 都 可 静态 地 进行 分 配 。 静 态 存 储 分 配 本 来 应 是 一 种 十 分 简单 的 策略 ,但 是 ,由 于 
FORTRAN 的 公用 语句 (COMMON) 和 等 价 语句 (EQUIVALENCE) 的 存储 分 配 复杂 性 ,使 得 
整个 存储 分 配 也 就 复杂 起 来 。 好 在 这 些 数 据 类 型 都 采用 相对 存储 分 配 ,所 以 在 编译 时 ,根据 各 
类 数据 所 需 的 存储 空间 大 小 以 及 存储 方式 规定 在 符号 表 中 建立 "名字 - 地 址 ?对 应 关系 。 然 后 ， 
根据 这 些 对 应 关系 进行 变量 名 的 地 址 分 配 。 

根据 FORTRAN 文本 规定 ,每 个 初等 数据 类 型 都 由 确定 长 度 的 机 器 字 表 示 。 壁 如 ,整数 、 
实数 和 逻辑 型 的 数 用 一 个 机 器 字 ; 双 精度 和 复 型 用 双 机 器 字 表 示 ; 数 组 按 列 存放 ,由 N 个 连续 
的 机 器 字 存 放 N 个 元 素 的 整 型 、 实 型 .逻辑 型 数组 ;文字 常数 从 机 器 字 的 边界 开始 存放 , 右 端 
不 到 边界 , 则 用 空白 补足 ; 若 有 浮 点 运算 的 机 器 , 浮 点 数 也 用 双 字 表示 , 且 必 须 从 偶数 地 址 开始 
存放 。 

机 器 字 取 多 长 ? 不 同 机 器 规定 不 同 ,通常 假定 为 四 个 字 节 , 但 在 微型 机 和 小 型 机 器 中 通常 
把 两 个 字 节 定义 为 一 个 机 器 字 , 这 对 于 表示 实数 来 说 显然 是 不 够 的 ,而 逻辑 字 取 两 个 字 节 又 嫌 
太 长 ,这 些 是 FORTRAN 的 规定 的 不 足 之 处 。 


8.1.1 数据 区 


FORTRAN 语言 是 块 状 结构 语言 , 它 由 一 个 主 程序 段 和 若干 子 程序 段 组 成 , 它 既 不 允许 
子 程序 嵌 套 也 不 允许 过 程 递 归 调 用 ,不 提供 可 变 长 字符 串 也 不 提供 可 变数 组 ,数据 名 的 类 型 在 
程序 中 应 加 以 说 明 ( 包 括 隐 含 说 明 )。 由 于 这 些 特点 , 它 允 许 各 程序 段 独立 编译 。 在 编译 每 段 
源 程序 时 ,首先 把 每 个 变量 及 其 类 型 等 属性 填 和 符号 表 , 然 后 再 依据 符号 表 计算 每 个 数据 占有 
的 尺寸 并 在 符号 表 的 地 址 栏 分 配 它们 的 相对 地 址 。 这 些 地 址 都 分 配 在 该 段 的 局 部 区 内 。 此 
外 , 若 程 序 段 内 有 公用 语句 ,那么 在 相应 公用 区 中 登记 其 相对 地 址 。 

一 般 而 言 ,程序 段 的 局 部 数据 区 可 直接 安排 在 该 段 指令 代码 之 后 ,无 名 公用 区 与 有 名 公用 
区 安排 在 目标 程序 的 最 后 。 假 设 FORTRAN 程序 由 一 个 主 程序 段 .若干 个 子 程序 段 、 一 个 有 
名 公用 区 和 一 个 无 名 公用 区 组 成 的 ,那么 运行 时 目标 程序 存储 结构 如 图 8. 1 所 示 。 


8.1 FORTRAN 目标 程序 存储 结构 
编译 时 只 需 注 意 统 计 每 个 数据 区 的 单元 数 , 对 于 各 区 的 首 地 址 暂 不 作 分 配 ,等 到 运行 时 再 
用 一 个 “ 装 入 程序 ”把 它们 连 成 可 运行 的 整体 。 为 此 ,在 符号 表 中 设置 两 栏 ; 区 号 和 相对 地 址 ， 
2 


用 作 存 储 地 址 分 配 。 在 程序 段 编译 时 先 填 变 量 的 相对 地 址 ,区 号 所 对 应 地 址 等 到 运行 时 由 “ 装 
人 程序 ”进行 处 理 。 
一 个 FORTRAN 程序 段 局 部 数据 区 的 内 容 一 般 含 有 下 列 诸 项 : 

临时 变量 

数 组 

简单 变量 

形式 单元 

寄存 器 保护 区 

返回 地 址 
其 中 ,返回 地 址 ?单元 用 来 保存 调用 此 程序 段 时 的 返回 地 址 。 虽 然 对 于 转子 指令 ,大 多 数 机 器 
有 硬件 存放 返回 地 址 的 单元 或 寄存 器 ,但 为 了 实现 子 程序 调子 程序 ,还 得 将 它 保 护 在 局 部 数据 
区 内 。 

“寄存 器 保护 区 ”用 来 保存 调用 段 留 在 寄存 器 中 的 信息 ,使 得 这 些 寄 存 器 在 过 程 体 结束 返 
回 时 重新 被 使 用 。 因 此 ,每 当 调用 过 程 或 从 过 程 返回 时 就 需要 对 寄存 器 进行 一 系列 的 保护 和 
恢复 工作 ,这 是 极其 耗费 时 间 的 。 

“形式 单元 ”用 作 存 放 实 际 参数 的 地 址 或 值 。 若 是 传 地 址 ,一 个 实际 参数 只 需 分 配 一 个 
形式 单元 ;若是 传 结果 ,那么 对 应 一 个 实际 参数 应 分 配 两 个 形式 单元 ,第 一 个 单元 存放 实际 
参数 的 地 址 ,第 二 个 单元 存放 实 参 的 值 。 对 于 哑 数 组 , 若 不 进行 数据 下 标 界 溢出 检查 ,只 需 
一 个 单元 ,用 作 存 放 实 际 数组 的 首 地 址 。 对 于 哑 过 程 , 也 只 需 一 个 单元 ,用 作 存 放 过 程 的 人 
口 地 址 。 

而 一 个 程序 段 中 所 定义 的 局 部 变量 和 数组 便 构成 该 局 部 区 的 主要 部 分 。 此 外 ,还 需 若 干 
临时 变量 单元 。 

表 8. 1 是 如 下 一 个 FORTRAN 程序 段 的 符号 表 。 


表 8.1 一 个 FORTRAN 程序 段 的 符号 表 


将 


将 


将 


实 
整 
整 


鼎 | 湛 | 冷 | 将 
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其 中 ,k 是 现行 段 局 部 数据 区 编号 ,a 是 寄存 器 保护 区 和 返回 地 址 单元 总 长 度 。 实 型 量 占 两 个 
机 器 字 , 整 型 量 占 一 个 机 器 字 , M,N 虽 没有 说 明 , 但 在 FORTRAN 中 它们 隐 含 为 整 型 量 。 
SUBROUTINE EXAM(X,Y) 
REAL J,K 
INTEGER A,B(20) 
REAL R(10,10),S 


M=N 十 5 


END 

上 面 的 存储 分 配 利 用 相应 的 语义 子 程序 就 能 实现 ,但 若 在 说 明 语句 中 包含 COMMON 语 
名 与 EQUIVALENCE 语句 时 ,存储 分 配 便 复 杂 化 了 。 此 外 ,临时 变量 的 存储 分 配 问题 将 作为 
单独 问题 进行 专门 讨论 。 


8.1.2 公用 语句 处 理 


FORTRAN 的 COMMON 语句 主要 用 于 处 理 在 不 同 程序 段 间 建立 共享 数据 区 的 问题 。 
采用 这 种 办 法 ,不 同 程序 段 可 以 使 用 相同 的 数据 区 ,所 以 可 以 节省 存储 空间 。 一 个 数据 名 可 由 
若干 个 说 明 语 名 加 以 说 明 ,对 它 的 语序 并 没有 严格 规定 ,因此 读 了 一 个 说 明 语 句 时 不 知道 该 数 
据 名 的 全 部 属性 ,只 有 待 到 全 部 说 明 语 句 读 完 后 才能 决定 。 所 以 , 当 遇 到 公用 语句 时 ,将 它们 
的 公用 元 (公用 语句 中 的 变量 名 ) 按 先后 出 现 的 顺序 拉 成 一 条 链 (不同 公 用 区 有 不 同 的 链 ) , 待 
到 说 明 语 句 读 完 之 后 , 依 链 的 顺序 进行 存储 分 配 。 此 链 是 在 原 符 号 表 上 增加 一 栏 , 称 作 公用 链 
CMP, 而 区 名 就 填 在 原来 的 区 号 上 。 

例如 ,假定 某 程 序 段 含 有 如 下 公用 语句 : 


COMMON X,Y /<*X,Y 分 配 在 无 名 公用 区 */ 
COMMON/B1/A,B,C/D,E,F(100) /xA,B,C 分 配 在 有 名 区 B,;D,E,F 分 配 在 
无 名 区 x*/ 


经 处 理 之 后 ,公用 链 CMP 和 公用 名 表 COMLIST 如 表 8. 2 所 示 。 根 据 不 同 的 区 名 ,公用 链 分 
成 若干 条 ,但 每 条 链 都 是 依照 变量 出 现 的 先后 顺序 拉 成 的 。 本 例 有 两 个 区 名 ,所 以 建立 两 
条 链 。 

其 中 ,COMLIST 称 作 公用 名 表 , 整 个 程序 只 用 一 张 表 。 它 分 四 栏 , 第 一 栏 记录 了 有 名 区 
区 名 及 无 名 区 区 名 (实际 上 用 空格 表示 ) ;第 二 栏 记录 该 区 的 最 长 数据 区 的 长 度 ,因为 不 同 程序 
段 使 用 公用 区 的 长 度 不 同 , 所 以 记录 最 长 的 数据 区 长 度 以 便 * 装 入 程序 ”进行 存储 分 配 ;另外 两 
栏 FT,LT 是 指示 器 ,分 别称 作 链 首 和 链 尾 , 借 用 它 来 填写 符号 表 的 公用 链 , 每 进入 一 个 程序 
段 时 ,将 FT 和 LT 置 为 null。 下 面 给 出 公用 语句 的 公用 元 处 理 语义 子 程序 : 

(1) 读 取 公用 语句 中 的 变量 名 , 查 符 号 表 是 否 有 该 变量 , 若 无 , 填 变量 名 至 符号 表 , 将 
CMP 栏 填 0( 表 示 链 尾 ) ,借助 DA 栏 填 区 名 ; 若 有 , 则 不 填 符 号 表 , 其 他 同上 。 

(2) 根据 公用 区 名 查 COMLIST 表 中 对 应 区 名 的 FT 栏 是 否 为 空 , 若 为 空 则 将 此 变量 名 
的 符号 表 入 口 地 址 填 至 FT 和 LT 栏 中 (表示 该 变量 名 既 处 于 链 首 又 处 于 链 尾 ); 
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(3) 若 不 为 空 , 则 将 该 变量 的 符号 表 入 口 地 址 填 到 LT 所 指 符号 表 那 一 项 的 CMP 中 ( 拉 
链 ) ,同时 也 填 人 LT 本 身 。 
表 8.2 公用 链 与 COMLIST 
(a) 符号 表 (b) COMLIST 


LENGTH 


X 
和 
A 
B 
C 
D 
E 
F 


8.1.3 等 价 语句 处 理 


等 价 语句 的 内 存 分 配 特点 : 
(1) 等 价 语句 定义 了 若干 个 等 价 片 ,每 个 等 价 片 是 由 括号 括 起 来 的 若干 个 变量 名 组 成 。 
这 些 变 量 名 又 称 等 价 元。 等 价 元 可 以 是 简单 变量 也 可 以 是 下 标 值 为 常数 的 下 标 变 量 。 
(2) 等 价 片 中 等 价 元 被 分 配 相同 的 存储 单元 , 即 共享 存储 单元 。 
(3) 不 同等 价 片 中 若 有 相同 的 变量 名 (包括 数组 名 ), 则 称 等 价 相关 ,这 时 应 将 两 个 等 价 片 
合 二 而 一 ,让 更 多 的 等 价 元 共享 存储 单元 。 
所 以 ,编译 的 任务 是 找 出 哪些 变量 存在 等 价 关系 ,并 将 它们 构成 等 价 环 , 同 时 指出 各 等 价 
元 的 存储 首 地 址 关系 ,以 便 说 明 语句 处 理 完 之 后 进行 内 存 分 配 。 
为 此 ,我 们 在 符号 表 中 再 增设 两 栏 :EQ 和 OFFSET。EQ 称 等 价 环形 链 , 若 为 null, 表 示 
该 变量 不 属于 等 价 元 ,和 否则 指向 下 一 个 等 价 元 的 入 口 并 构成 环形 链 ; 若 只 有 一 个 等 价 元 , 则 指 
向 自身 。OFFSET 称 相对 位 移 量 , 用 来 指出 各 等 价 元 存储 首 地 址 间 的 地 址 相对 关系 。 
例如 ,有 如 下 说 明 语句 : 
INTEGER I,J,K,X,A(10,10) 
EQUIVALENCE(X,A(2,3)),(1,J,A(l,2),K) 
由 说 明 语 句 可 知 ,从 表面 上 看 虽 定 义 了 两 个 等 价 片 ,但 数组 A 出 现在 两 个 等 价 片 中 ,所 以 它们 
为 等 价 相关 ,应 合并 成 一 个 等 价 片 。 对 于 这 样 的 语句 ,我 们 希望 在 编译 程序 对 说 明 语句 处 理 之 
后 获得 如 下 的 符号 表 , 即 建立 等 价 环 并 填写 相对 位 移 量 。 
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OFFSET 


下 面 讨论 这 个 表 是 如 何 获得 的 。 在 求 相 对 位 移 量 时 ,我 们 假设 变量 的 类 型 都 为 整 型 , 若 变 
量 的 类 型 不 同 , 其 计算 有 些 差别 。 另 外 ,FORTRAN 的 数组 是 按 列 存放 的 ,而 且 下 界 规定 为 1， 
计算 二 维 数组 的 下 标 变量 地 址 应 是 : 

Ai ,ia) 王 A(1,1) 十 h 一 1 十 (一 1) * 由 
对 于 等 价 语句 EQUIVAENCE(X,A(2,3)),(I,J,A(1,.2),K) ,下面 讨论 等 价 环 、. 相 对 位 移 量 
的 建立 过 程 。 
(1) 当 扫 描 到 X 时 ,能 构造 如 下 的 等 价 环 ,其 相对 位 移 量 X。 OFFSET 设 为 0; 


(2) 扫描 到 A(2,3) 时 ,已 知 它 与 X 是 处 于 同一 等 价 片 内 ,所 以 变量 X 与 数组 A 可 以 构成 
等 价 环 。A(2,3)。OFFSET 二 X。OFFSET 二 0, 可 以 求 得 A 数组 的 首 地 址 A(1,1)， OFF- 
SET 如 下 :A(1,1)。OFFSET 一 A(2,3)。OFFSET 一 [(2 一 1) 十 (3 一 1) * 10]==0 一 21 
= 多。 

结果 用 下 图 表示 : 


Xx 0 A -21 
(3) 扫描 到 I 时 ,与 步骤 (1) 的 处 理 相 同 。 


Cl 0 -| Xx 0 A -21| 


(4) 扫描 到 本 ,与 变量 I 构成 等 价 环 。 


L_ I 0 J 0 XxX 0 A -21 


(5) 扫描 到 A(1,2) ,发 现 A。EQ 了 null, 说 明 它 在 某 等 价 环 内 ,与 当前 等 价 环 等 价 相 关 ， 
需 并 环 ,并 且 以 前 一 个 等 价 环 的 位 移 量 为 准 , 求 得 A(1,2)。 OFFSET 为 : 
A(1,2). OFFSET=A(1,1). OFFSET+[(1—1)+(2—1)*10]= 一 21 十 10= 一 11 
由 于 A(1,2) ,1,J 均 共 享 同 一 单元 ,所 以 有 : 
I.。 OFFSET=J . OFFSET= A(l1,2). OFFSET=—11 
环 之 后 可 表示 成 下 图 , 链 首 在 I 这 一 项 : 


L_ I -11 J -11 X 0 A -21 
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(6) 扫描 到 K, 它 与 1,] 共享 存储 单元 ,所 以 K。 OFFSET 王 一 11, 并 将 它 插入 上 面 的 链 ， 
通常 是 插 在 链 首 的 下 一 结 点 上 。 最 后 构成 如 下 图 


L | -1 K -11 J -11| X 0 A -21 -| 


这 就 是 希望 获得 的 结果 。 在 上 述 过 程 中 还 应 该 检查 是 否 有 等 价 冲突 等 问题 。 通 过 以 上 介 
绍 , 我 们 不 难 拟 定 一 个 等 价 片 归并 算法 。 


8.1.4 地址 分 配 


在 建立 了 公用 链 \、 等 价 环 并 填 过 各 变量 的 属性 之 后 ,可 以 着 手 对 程序 中 用 户 定义 的 变量 名 
和 数组 名 分 配 存储 空间 了 。 首 先 讨论 各 公用 区 中 公用 元 的 地 址 分 配 ,然后 讨论 局 部 区 的 地 址 
分 配 。 

1) 公用 区 地 址 分 配 

假定 公用 区 区 号 从 127 区 开始 进行 存储 分 配 。 下 面 对 公 用 区 采用 如 下 分 配 过 程 : 从 公用 
区 的 链 首 变量 开始 , 沿 着 公用 链 逐 个 为 公用 元 分 配 内 存 地 址 。 每 次 分 配 地 址 时 查看 该 公用 元 
的 EQ 栏 是 否 为 空 (null) , 若 不 空 , 则 按 EQ 指出 的 等 价 环 为 环 中 所 有 等 价 元 分 配 存 储 地 址 , 直 
至 等 价 环 处 理 完毕 返回 公用 链 继 续 往 下 分 配 ; 若 为 空 ,继续 分 配 后 继 公 用 元 。 此 过 程 直到 公用 
链 处 理 完毕 为 止 。 在 这 个 过 程 中 具体 要 做 下 列 操 作 : 


(1) 在 分 配 到 变量 Ni 时 发 现 Ni， EQ 了 null( 见 图 8. 2)， | 
从 EQ 中 找 出 等 价 环 Ni ,Ns ,…,Na ,其 相对 位 移 量 分 别 为 f， N 
人, ,fm ， 则 为 它们 分 配 地 址 为 addr(N;)==a 十 (fi 一 1) ,i==2， N, 人 N, 
3,…,m。 其 中 a 为 Ni 分 配 到 的 地 址 , 即 为 公用 元 地 址 计 了 
数 器 。 i 六 


(2) 等 价 结果 可 能 超越 公用 区 的 界 , 若 a 十 f; 一 fi 二 0, 则 
称 作 公用 区 冒 头 ( 即 越界 ) 。 冒 头 是 不 允许 的 ,所 以 等 价 环 最 “(1) M, 
好 不 要 处 于 公用 链 链 首位 置 。 ~ 

(3) 若 某 变量 在 等 价 环 中 已 被 分 配 了 地 址 , 回 到 公用 链 由 
又 为 它 分 配 地 址 ,如 图 8. 2 中 Ms 点 所 示 ,在 等 价 环 中 已 为 它 
分 配 了 变量 地 址 , 回 到 公用 链 ,又 为 它 分 配 另 一 地 址 ,这 表示 ”图 8.2 地 址 分 配 过 程 示意 图 
分 配 出 现 冲突 错误 。 

(4) 公用 区 长 度 计算 。 每 处 理 完 一 个 等 价 环 后 ,公用 区 的 长 度 应 为 ， 

len=MAX(len, a MAX(E—fi +SIZECN))) 

其 中 ,等 式 右边 的 len 表示 分 配 到 这 个 等 价 环 之 前 公用 区 长 度 ;a 用 作 分 配 公 用 元 地 址 计数 器 ， 
假定 aw 二 0;SIZE(N;) 表 示 第 Ni 个 等 价 元 占有 的 存储 单元 数 。 等 到 该 公用 区 处 理 完 ,len 值 
就 表示 该 程序 段 中 使 用 该 数据 区 的 最 大 长 度 。 将 此 长 度 与 COMLIST 表 的 LENGTH 中 记录 
的 长 度 相 比较 , 若 长 , 则 替换 原 LENGTH 中 的 内 容 , 从 而 保证 LENGTH 中 登记 的 是 最 长 的 
长 度 。 
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2) 局 部 区 变量 地 址 的 分 配 

在 局 部 区 中 可 能 出 现 等 价 环 ,这 时 对 等 价 元 的 地 址 分 配 与 上 面 的 分 配 策 略 有 些 不 同 。 它 
是 选择 环 中 相对 位 移 量 最 小 的 等 价 元 开始 分 配 地 址 ,因此 不 存在 冒 头 问 题 ,同时 为 了 使 等 价 环 
中 的 变量 与 非 该 等 价 环 中 的 变量 不 占有 相同 存储 单元 ,地 址 分 配 计数 器 a 应 该 这 样 处 理 : 当 等 
价 环 处 理 之 后 ， 

a:=at MAX(E —f+SIZECN)) 

其 中 ,Ni 是 指 等 价 环 中 m 个 元 素 Ni,N;,…,N。 的 任意 一 个 ,f; 是 它们 相应 的 相对 位 移 量 ,并 
设 其 中 最 小 的 相对 位 移 量 为 f。 

局 部 区 等 价 环 的 分 配 算法 中 ,N 指 等 价 环 的 某 个 变量 的 符号 表 入 口 地 址 ,a 是 地 址 计数 
器 ,假定 aw 鱼 三 寄存 器 保护 区 后 的 首 地 址 。 


局 部 区 等 价 环 分 配 算法 如 下 : 
PROCEDURE 局 部 区 等 价 环 地 址 分 配 ; 
BEGIN 


Ni:=N;f:=OFFSET[N]; 
WHILE EQLN:] 关 N DO /x* 找 等 价 环 中 最 小 相对 位 移 量 , 并 存 于 fx*/ 
{Ni:=EQ[Ni];f:=MIN({,OFFSET[N)]))}; 


len: 王 一 co; 
Ni:=N; /* 从 入 口 开始 为 等 价 环 各 元 素 分 配 地 址 x* / 
REPEAT 


DALN',] := 现行 程序 段 序号 ; 
ADDR[N,]:=a 十 (OFFSETLN,] 一 D， 
len: 王 MAX(len,(OFFSET[N,] 一 人 十 SIZECN; ) ); 
Ni:=EQ[N] 
UNTIL N=N; 
a: 一 a 十 len 
END; 
除了 等 价 环 元 素 之 外 ,局 部 区 变量 的 内 存 地 址 分 配 严格 按照 变量 出 现 顺序 进行 。 
[ 例 8. 1] 下 面 是 FORTRAN 程序 的 说 明 部 分 ,请 为 变量 分 配 内 存 地 址 。 假 定 整 型 量 占 一 
个 字 , 实 型 量 占 两 个 字 编 址 。 
INTEGER A,B /x*x MAIN*/ 
DIMENSION A(2,3),C(5),D(8) 
COMMONI.J.X.A /RR/E,F 
EQUIVALENCE (A(2,2),C(1)),(D(C4),B) 


V=Bx*5 
U=1,5*V 


END 
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SUBROUTINE SR， /* 子 例 程 子 程序 * / 
DIMENSION B(3) 
COMMON M,X,B 

W=78/Z 


END 
FUNCTION FN /* 函数 子 程序 * / 
REAL W,Y 


END 
解 : 当 处 理 过 主 程序 块 之 后 ,按照 前 面 几 节 的 处 理 过 程 ,可 填写 符号 表 与 COMLIST 表 如 
表 8.3、 表 8.4 所 示 , 其 中 ADDR 栏 中 a 指 寄存 器 保护 区 后 首 地 址 。 


表 8.3 符号 表 


OFFSET 


0 


6 


3 


表 8.4 COMLIST 


LENGTH 


9 


4 


主 程序 段 存储 分 配 示意 图 及 子 程序 段 存储 分 配 示意 图 如 图 8. 3 所 示 。 
子 程序 段 存 储 分 配 比 较 简单 ,除了 子 例 程 子 程序 用 到 无 名 区 外 ,其 他 都 分 配 在 子 程序 段 
中 ,结果 如 图 8. 3 所 示 。 
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及 区 


MAIN SUB MAIN FUNCTION 
公用 区 局 部 区 


图 8.3 存储 分 配 示意 图 


8.1.5 临时 变量 地 址 分 配 


在 讨论 中 间 代 码 生 成 时 曾 假 定 ,每 调 一 次 NEWTEMP 就 产生 一 个 新 的 临时 变量 序号 
而 且 几 乎 不 加 限制 地 引进 临时 变量 序号 。 那 么 .是否 要 为 每 个 引进 的 临时 变量 分 配 一 个 相应 
存储 单元 呢 ? 不 必要 ,这 一 节 就 来 讨论 临时 变量 的 存储 分 配 办 法 。 

首先 ,临时 变量 的 类 型 很 简单 , 它 是 用 于 暂 存 某 些 运算 的 中 间 结 果 ,它们 只 可 能 是 整 型 . 实 
型 ,布尔 型 和 双 精 型 等 几 种 简单 类 型 ,无 需 登 记 到 符号 表 中 ,如 有 必要 只 要 对 相应 的 临时 变量 
加 上 一 些 附 加 信息 。 

对 于 临时 变量 的 定 值 往往 是 为 了 以 后 引用 ,一 旦 不 再 被 引用 ,此 临时 变量 的 寿命 也 便 终 
了 , 它 占 有 的 存储 单元 也 可 以 腾 出 来 给 其 他 临时 变量 使 用 。 一 个 临时 变量 从 它 被 定 值 (赋值 
的 地 方 开始 直至 最 后 一 次 被 引用 的 地 方 为 止 ,其 间 程 序 可 到 达 的 四 元 式 全 体 称 作 这 个 临时 变 
量 的 作用 域 。 因 此 ,两 个 临时 变量 的 作用 域 若 不 相交 , 则 它们 可 被 分 配 在 同一 单元 中 。 

假定 已 经 有 计算 各 个 临时 变量 作用 域 的 算法 ,那么 可 按 下 述 办 法 对 临时 变量 进行 存储 分 
配 : 令 临 时 变量 名 均 分 配 在 局 部 数据 区 中 , 若 某 一 单元 已 分 配给 某 个 临时 变量 名 , 则 把 该 变量 
的 作用 域 作 为 此 单元 的 分 配 信 息 记录 下 来 。 每 当 要 对 一 个 新 临时 变量 名 进行 分 配 时 ,首先 求 
出 此 变量 名 的 作用 域 ,然后 按 序 检查 每 个 已 分 配 单 元 ,一 旦 发 现 新 求 出 的 作用 域 与 某 单元 所 记 
录 的 作用 域 不 相交 时 ,就 把 这 个 单元 分 配给 这 个 新 变量 名 ,同时 把 它 的 作用 域 也 添加 到 该 单元 
的 分 配 信息 中 。 若 新 临时 变量 名 的 作用 域 和 所 有 已 分 配 单元 的 作用 域 有 冲突 , 则 分 配给 它 一 
个 新 单元 ,同时 把 新 变量 名 的 作用 域 作 为 此 单元 的 分 配 信息 保存 起 来 。 

在 简单 表达 式 中 使 用 的 临时 变量 有 个 特点 , 即 单 赋值 单 引用 。 这 些 临 时 变量 的 作用 域 是 
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能 套 的 或 者 是 不 相交 的 。 对 于 这 类 临时 变量 可 以 设想 采用 一 个 栈 来 存放 这 类 临时 变量 ,而 且 
所 需 的 临时 变量 的 单元 数 等 于 最 大 的 嵌 套 层 数 。 例 如 ,赋值 语句 : 
X=AB— (CTDYEFCETFY (GFHD 


翻译 成 的 四 元 式 为 : 
四 元 式 临时 变量 名 地 址 ( 栈 指针 k) 
(1) (+,A,B,T) 拓 
C2 COD Ty 和 a 十 1 
(3) (+,E,F,T,) 入 a 十 2 
(8 十 ,本 ;了 ] a 十 3 
(5) Cx ,Ts ,Ts TD)] Re a 十 2 
(6) (TvT TO] 和 | 
(7) (一 ,TeTD] Ls a 


(8) (1=5T7s—;X) 
它 最 大 的 租 套 层 数 为 4, 因 此 所 需 临 时 单元 数 也 为 4。 下 面 仔细 看 看 它们 是 怎么 分 配 存 储 单元 
的 。 令 k 为 栈 指 针 , 设 它 的 初 值 是 局 部 区 中 用 来 存放 临时 变量 值 的 区 域 首 地 址 a。 当 临时 变 
量 Ti 形成 时 , 它 存 人 a,k 加 1, 指 向 a 十 1 单元 。 当 Ts 形成 时 , 它 存 人 a 十 1,k 加 1, 指 向 a 十 2 
单元 …… 当 T 形成 时 , 它 存 人 a 十 3 单元 ,k 加 1 指向 a 十 4 单元 。 遇 到 四 元 式 (5), 它 引用 Ts ， 
T, 临时 变量 ,这 说 明 T, ,T, 不 会 再 被 使 用 ,可 以 从 栈 中 退 掉 , 即 栈 指针 kk 减 2, 指 向 a 十 2, 这 时 
形成 Ts 就 存 人 a 十 2 单元 ,k 加 1, 指向 a 十 3。 遇 到 四 元 式 (6), 它 引用 T; ,Ts 临时 变量 ,所 以 
Ts ,Ts 也 可 退 栈 ,k 指向 a 十 1, 将 Ts 存 人 a 十 1,k 指向 a 十 2。 遇 到 四 元 式 (7) ,Ti ,Te 退 栈 ,T， 
存 人 a,k 指向 a 十 1。 遇 到 四 元 式 (8) ,T; 退 栈 ,最 后 栈 指针 又 回 到 指向 a。 

对 于 具有 多 寄存 器 的 机 器 来 说 ,临时 变量 不 宜 使 用 存储 器 ,而 是 用 寄存 器 来 存放 更 好 , 因 
为 它 节 省 了 存 取 内 存 的 时 间 ( 详 细 讨 论 结合 目标 代码 生成 进行 ) 。 


8.2 栈 式 存储 管理 


8.2.1 人 允许 过 程 (函数 ) 递 归 调 用 的 数据 存储 管理 


我 们 考虑 一 种 在 UNIX 系统 下 的 C 语言 ,该 语言 允许 过 程 (函数 ) 递 归 调 用 但 不 允许 定义 
嵌 套 的 过 程 (函数 ) ,也 不 允许 使 用 可 变数 组 DO。 这 就 是 说 , 它 的 程序 结构 只 有 0 层 ( 主 程序 ) 和 
1 层 [若干 过 程 (函数 )] ,根据 变量 的 最 小 作用 域 原则 .0 层 的 程序 只 能 引用 0 层 变量 ,0 层 定义 
的 全 局 变量 是 0 层 和 所 有 1 层 程序 都 能 引用 的 ;1 层 程序 除了 可 使 用 0 层 的 全 局 变量 外 只 能 
使 用 1 层 本 身 定义 的 变量 ,1 层 之 间 的 变量 不 能 互相 使 用 。 

使 用 栈 式 存储 分 配 意 味 着 ,每 进入 一 个 过 程 ( 主 程序 也 是 过 程 ) ,就 有 相应 的 数据 区 建 于 栈 


@ 实际 上 C 语 言 只 有 函数 调用 而 无 过 程 调用 。 因 此 确切 地 说 ,这 里 只 能 称 为 “类 C” 语 言 。 另 外 ,不 同 的 
C 编译 程序 其 数据 区 构造 也 略 有 不 同 , 本 文 只 作 原 理性 的 介绍 ,后 面 的 Pascal 语言 数据 区 构造 也 有 类 似 问 题 。 
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顶 。 在 程序 开始 运行 前 ,用 于 建造 数据 区 的 栈 是 空 栈 。 在 开始 进入 主 程序 执行 语句 前 , 便 在 栈 
中 建立 全 局 变量 和 主 程序 数据 区 。 在 主 程序 中 车 有 调用 过 程 的 语句 时 , 便 在 栈 顶 累 筑 该 过 程 
的 活动 记录 。 活 动 记录 包含 连接 数据 、 形 式 单元 、 局 部 变量 、 内 情 向 量 和 临时 工作 单元 等 。 在 
进入 过 程 后 执行 过 程 的 可 执行 语句 前 再 把 局 部 数组 ( 若 有 的 话 ) 累 筑 于 栈 顶 (对 于 C 语言 , 因 
为 没有 使 用 可 变数 组 ,所 以 数组 的 存储 分 配 不 必 等 到 运行 时 才 建 立 )。 进 入 过 程 体 后 , 若 有 其 
他 的 过 程 调用 语句 (可 以 调用 本 身 过 程 ) , 则 重复 上 述 建 数据 区 过 程 。 

按 如 下 C 语言 程序 结构 ,P 过 程 进 入 运行 后 的 存储 结构 如 图 8. 4 所 示 。 栈 项 数据 区 有 两 
个 指针 SP 和 TOP,SP 指向 现行 过 程 数 据 区 起 点 ,TOP 指向 顶点 。 从 数据 区 中 引出 指向 主 程 

序数 据 区 的 箭头 表示 外 部 变量 引用 关系 , 即 Q,P 过 程 都 可 以 引用 主 程序 的 全 局 变量 。 


定义 全 局 变量 和 数组 ; 

MAIN( ) /* 主 程序 */ 

‘ 

Q( ); /xCallQC )x*/ 

} 

P( ) /< 定义 函数 P( )x*/ 
( 

} 


Qt /定义 函数 Q( )*/ 


BC 3 /x*xCall PC )x*/ 


TOP 
临时 工作 单元 


内 情 向 量 
简单 变量 
形 参 单元 
参数 个 数 
返回 地 址 
老 SP 


图 8.4 C 数据 区 结构 图 8.5 C 过 程 活动 记录 


1) C 语言 的 活动 记录 含有 的 区 段 ( 见 图 8. 5) 
(1) 连接 数据 ,有 两 个 : 
@ 老 SP 值 , 即 前 一 活动 记录 的 首 地 址 ,或 称 施 调 过 程 的 数据 区 首 地 址 ; 
@@ 返 回 地 址 , 即 调用 语句 的 下 一 条 指令 地 址 。 
(2) 参数 个 数 。 
(3) 形 参 单元 (存放 实 参 值 或 地 址 ) 。 
(4) 过 程 的 局 部 变量 、 数 组 内 情 向 量 和 临时 工作 单元 。 
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简单 变量 X 在 数据 区 内 的 相对 地 址 在 编译 时 是 已 知 的 , 设 为 x, 则 变量 X 的 内 存 地 址 表示 
成 变 址 形式 x[SP], 其 中 SP 为 当前 数据 区 首 地 址 ,用 作 变 址 值 ,x 称 作 相对 位 移 量 。 另 外 ,一 
且 数 组 尺寸 确定 后 ,就 可 为 数组 分 配 存储 单元 。 因 此 ,下 标 变量 的 地 址 也 可 写成 变 址 访问 的 

2) C 语言 的 数据 区 建立 与 撤消 

(1) 过 程 调用 段 。 

C 语言 的 数据 区 是 由 过 程 调用 语句 引起 的 。 上 一 章 已 介绍 过 call Q(T ,Ts ,…',T.) 语 句 
译 成 中 间 代 码 形式 : 

par Ti 


par T, 
jsr n,Q 
这 些 “par Ti 指令 就 是 把 Ti 传递 到 Q 数据 区 的 形 参 单 元 。 若 是 传 值 , 则 par Ti 可 解释 成 (i 十 
3)LTOP]:=Ti; 若 是 传 地 址 ,par Ti 可 解释 成 (i 十 3)LTOP]:=addr(Ti)。“jsr n,Q” 指 令 可 解 
释 成 : 
1[TOP]:=SP; /* 保 护 老 SPx*/ 
3[TOP]:=n; /* 传递 参数 个 数 */ 
jsr Q; /* 转子 指 令 */ 

(2) 过 程 进 入 段 。 

转 人 过程 Q 后 ,首先 要 做 的 工作 是 定义 新 活动 记录 的 SP, 保 护 返 回 地 址 和 定义 这 个 活动 
记录 的 TOP, 也 就 是 说 ,应 执行 下 述 的 指令 : 

SP:=TOP+1 /* 定 义 新 的 SPx/ 
1LSP]:= 返 回 地 址 。 /* 保 护 返 回 地 址 即 老 SP 值 x*/ 
TOP:= 二 TOP 十 L /x 定义 新 TOPx/ 
其 中 ,L 是 过 程 Q 的 活动 记录 所 需 单 元 数 , 这 个 数 在 编译 时 可 静态 地 计算 出 来 。 

假定 过 程 包含 可 变数 组 (实际 上 C 语言 不 含 可 变数 组 ) ,而 且 数 组 的 空间 分 配 在 活动 记录 
的 顶 上 ,所 以 紧 接 上 述 指令 之 后 应 执行 对 数组 进行 存储 分 配 的 指令 (如 果 含 有 局 部 数组 ) 。 这 
些 指 令 是 在 编译 数组 说 明 时 产生 的 , 称 之 为 运行 子 程序 。 这 时 仅仅 运行 此 子 程序 便 建 立 了 可 
变数 组 的 存储 区 ,对 于 每 个 数组 说 明 ,相应 的 目标 指令 将 做 以 下 两 件 工作 : 

计算 各 维 的 上 下 界 ; 

@ 调 用 数组 空间 分 配子 程序 ,其 输入 参数 是 内 情 向 量 表 首 地 址 和 各 维 上 下 界 ,调用 构造 内 
情 向 量 表 子 程序 填 好 向 量 表 并 计算 数组 尺寸 ,然后 在 TOP 所 指 的 位 置 上 留 出 数组 所 需 的 空间 
并 调整 TOP 指针 ,使 其 指向 数组 区 的 顶端 。 

(3) 过 程 返回 段 。 

C 语言 以 及 其 他 一 些 类 似 语 言 含 有 下 面 形 式 的 返回 语句 :return(E), 其 中 下 为 表达 式 。 
假定 三 的 值 已 计算 出 来 并 已 放 在 某 个 临时 单元 工 中 ,那么 就 将 工 值 传送 到 某 个 特定 的 寄存 器 
中 (调用 段 将 从 这 个 特定 的 寄存 器 中 获得 被 调用 过 程 的 结果 值 )。 然 后 剩 下 的 工作 是 恢复 SP 
和 TOP, 以 便 回 到 调用 段 的 数据 区 。 同 时 , 按 返回 地 址 无 条 件 回 到 调用 语句 的 下 一 语句 去 继 
续 运 行 。 即 执行 下 列 指令 序列 : 
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TOP:=SP 一 1 
SP:=0[SP] ”/x* 也 可 写作 SP:=1[TOP]*/ 
X;=2[TOP] 
jmp OLX] /x*X 用 作 变 址 寄存 器 */ 
如 果 用 end 结束 函数 过 程 , 则 按 同样 办 法 传送 结果 值 ,并 执行 上 述 的 返回 指令 序列 ,返回 
调用 有 段 程序 (车 仅仅 是 过 程 调用 , 则 不 送 回 结果 ,其 他 动作 不 变 )。 


8.2.2 骨 套 过 程 语言 的 栈 式 存储 管理 


现在 讨论 一 种 既 人 允许 过 程 递归 调用 也 允许 定义 过 程 嵌 套 的 语言 。 从 结构 上 看 Pascal 就 
属于 这 样 一 种 语言 ,但 Pascal 含有 “文件 ”和 “指针 ”这 些 数 据 类 型 ,因此 存储 分 配 不 能 简单 地 
运用 栈 式 结构 来 实现 。 而 Pascal 子 集 ( 除 这 两 类 数据 类 型 外 ) 可 用 栈 式 存储 管理 。 

上 一 章 在 讨论 为 过 程 嵌 套 语 言 建 立 符号 表 时 ,已 为 所 有 过 程 建立 一 张 分 程序 表 
BLKLIST, 在 表 中 登记 了 每 个 过 程 所 处 的 层 数 LN。 由 于 允许 过 程 嵌 套 , 其 层 数 可 以 是 任意 
值 , 但 在 实际 编程 时 层次 不 会 很 多 。 根 据 变量 的 最 小 作用 域 原则 ,一 个 过 程 可 以 引用 包围 它 的 
任 一 外 层 (俗称 直系 外 层 ) 过 程 所 定义 的 变量 或 数组 ,也 就 是 说 ,运行 时 一 个 过 程 Q 可 能 引用 
它 的 任意 直系 外 层 P 的 最 新 活动 记录 中 的 某 些 数据 。 因 此 ,过程 Q 在 运行 时 必须 知道 它 的 所 
有 直系 外 层 过 程 的 最 新 活动 记录 的 地 址 。 由 于 允许 递归 ,过 程 活 动 记录 的 位 置 是 动态 变化 的 。 
因此 ,在 每 个 活动 记录 中 必须 设法 记 住 直 系 外 层 的 最 新 活动 记录 的 位 置 。 

1) 层次 显示 表 display 

这 里 介绍 一 种 比较 有 效 的 解决 办 法 。 每 进入 一 个 过 程 之 后 ,在 建立 它 的 活动 记录 区 的 同 
时 建立 一 张 层次 显示 表 , 表 中 登记 所 有 它 的 直系 外 层 最 新 活动 记录 的 首 地 址 及 本 过 程 活动 记 
录 首 地 址 。 比 如 ,现在 处 于 第 i 层 ,从 第 0 层 算 起 , 表 的 尺寸 应 该 有 i 十 1 个 单元 , 自 顶 而 下 , 它 
登记 着 当前 过 程 、 直 接 外 层 …… 直至 最 外 层 (0 层 、 主 程序 层 ) 的 活动 记录 首 地 址 ( 见 图 8. 6)。 
由 于 该 过 程 的 层 数 是 确定 的 ,所 以 此 表 的 尺寸 也 是 确定 的 。 我 们 也 将 此 表 放 在 活动 记录 内 ,并 
置 于 形 参 单元 之 上 ,如 图 8.7 所 示 。 图 8.7 与 图 8.5 相 比 较 多 了 两 项 :display 表 和 全 局 dis- 
play。 


TOP -一 ~ 临时 变量 
内 情 向 量 


i 层 | 当前 过 程 数据 区 首 地 址 简单 变量 
i 一 1 层 | 直接 外 层 数 据 区 首 地 址 d| display 表 | 

1 元 
0 层 | 主要 数据 区 首 地 | Rey | 


1 返回 地 址 
一 -。 


SP 


8.6 display 表 8.7 ”Pascal 活动 记录 


由 于 每 个 过 程 的 形 参 单元 数目 在 编译 时 是 完全 确定 的 (第 3 单元 已 给 出 ) ,所 以 display 表 
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的 相对 地 址 d 在 编译 时 也 是 完全 确定 的 。 假 定 现行 过 程 中 引用 了 某 一 直系 外 层 的 变量 X( 设 
为 第 k 层 , 它 可 从 分 程序 结构 的 符号 表 中 查 得 ) ,那么 可 用 如 下 两 条 变 址 指令 获取 X 的 值 ,并 
送 Rs 寄存 器 。 
LD Ri,(d 十 kK)[LSP];  /* 从 display 表 中 取出 kk 层 过 程 的 最 新 活动 记录 首 地 址 */ 
LD R; ,x[LR ]; /* x 为 变量 X 在 第 k 层 活动 记录 的 相对 地 址 x*/ 
这 样 便 解决 了 引用 直系 外 层 中 变量 的 问题 ,现在 的 问题 是 display 表 怎么 造 出 来 。 
2) 层次 显示 表 display 的 建立 
由 过 程 P, 调用 过 程 P, ,在 进入 Ps 之 后 如 何 建立 Ps 的 display 表 ? 这 里 分 两 种 情况 讨论 。 
(1) 被 调 过 程 是 真实 过 程 。 如 图 8. 8 所 示 的 Call Pi ,Call P, ,其 中 Pi ,Ps 都 是 真实 过 程 名 。 
@P, 是 P, 的 直接 外 层 , 如 图 8. 8 所 示 。 
当前 若 处 于 Pi 过 程 , 它 的 display 表 应 包含 两 项 :Pu ( 主 程序 ) 活 动 记录 首 地 址 和 P, 过 程 
最 新 活动 记录 首 地 址 。 当 执行 call P, 后 ,应 进入 过 程 P; ,在 建立 Ps 活动 记录 的 同时 应 建 P， 
的 display 表 。 此 表 应 有 三 项 :P。 活动 记录 首 地 址 `.P, 最 新 活动 记录 首 地 址 及 Ps 活动 记录 首 
地 址 。 前 两 项 可 在 P,. display 表 中 抄 得 .而 Ps 的 活动 记录 首 地 址 即 为 Ps 的 SP 值 。 


P, Pp 
Pp, Pp, 
p, ( 
( 
Call P, Call Pp, 
CallP, Call P， 
图 8.8 直接 外 层 调 用 图 8.9 层次 相同 调用 


@Pi 与 P, 层次 相同 。 如 图 8.9 所 示 。 

当前 车 处 于 Pi 过 程 , 当 执 行 Call P, 时 进入 Ps 过 程 。P。，display 表 只 包含 两 项 (因为 它 
的 层 数 为 1) ,一 项 是 Pu 的 活动 记录 首 地 址 ,一 项 是 P, 本 身 的 SP。P。 的 活动 记录 首 地 址 在 
Pi1。 display 表 中 也 有 过 ,因此 也 可 以 从 P!，display 表 中 抄 得 。 

汇总 上 述 两 种 情况 : 当 进入 第 i 层 过 程 时 其 display 表 可 从 施 调 过 程 的 display 表 中 抄录 i 
项 ,其 中 i 表示 当前 数据 区 的 静态 层次 ,然后 加 上 自身 活动 记录 首 地 址 SP 组 成 。 为 方便 做 这 
件 事 , 将 施 调 过 程 的 display 表 首 地 址 作为 连接 数据 送 到 被 调 过 程 的 全 局 display 单元 。 

由 于 图 8. 10 所 示 为 隔 层 调用 , 造 不 出 被 调 过 程 的 display 表 , 因 此 是 不 允许 的 ,这 就 是 程 
序 语 言 中 不 允许 这 种 调用 的 实质 所 在 。 


Mu 


Call P。 AP， 
( Call A(C) 


CallB 
图 8.10 隔 层 调用 (不 允许 ) 图 8.11 调用 形式 过 程 
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(2) 被 调 过 程 是 形式 过 程 。 如 图 8. 11 所 示 的 Call X,X 是 形式 参数 ,又 称 X 为 形式 过 程 。 

过 程 调用 情况 是 这 样 :在 过 程 B 中 调用 过 程 A, 并 把 过 程 名 C 当 作 实 参 传递 给 A, 进 入 过 
程 A 后 ,有 Call X 语句,X 是 形式 参数 ,所 以 又 称 调用 形式 过 程 。 实 际 上 ,根据 形 实 替 换 原则 ， 
应 调 C 过 程 ,所 以 应 该 建立 C 的 活动 记录 及 C， display 表 。 显 然 , 这 时 C。 display 表 不 能 从 
施 调 过 程 A 中 抄 得 ,而 应 该 从 把 过 程 名 当 作 实 参 传递 的 那个 过 程 ( 即 过 程 B) 中 抄 得 , 即 应 把 
Bdisplay 表 首 地 址 传递 至 C 的 全 局 display 单元 。 

总 之 ,要 构造 某 被 调 过 程 的 display 表 , 或 者 从 施 调 过 程 的 display 表 中 抄 若干 项 或 者 从 把 
实在 过 程 名 当 作 实 参 传递 的 那个 过 程 的 display 表 中 抄 若干 项 ,然后 再 加 上 本 身 的 SP 组 成 。 

于 是 连接 数据 变 为 三 项 : 老 SP 返回 地 址 .全 局 display 地 址 。 

3) Pascal 语言 的 数据 区 建立 与 撤销 

(1) 过 程 调用 段 。 过 程 调用 段 所 应 做 的 工作 与 8. 2. 1 节 所 述 的 内 容 大体 相 同 。 但 由 于 它 
允许 传递 的 参数 种 类 比较 多 , 它 有 一 些 特殊 性 。 

par T; 传递 参数 指令 ,其 中 Ti 或 是 表达 式 的 结果 或 是 某 种 类 型 的 标识 符 。 下 面 讨论 对 不 
同 参 数 种 类 ,这 条 指令 该 如 何 解 释 。 

加 传递 简单 变量 (包括 临时 变量 或 常量 ) 。par T; 解释 成 : 

(i 十 4) [TOP]J]:=T; /* 传 值 */ 

(i 十 4) [TOP]:=addr(T;) /¥* 传 地 址 x*/ 
@ 传 递 数组 。 为 了 对 形 实数 组 的 一 致 性 检查 ,一 般 传递 内 情 向 量 表 首 地 址 , 即 : 
(i 十 4) LTOP]:=Ti 的 内 情 向 量 表 首 地 址 

@ 传 递 过 程 名 。 如 图 8. 11 所 示 的 Call A(C)， 
其 中 C 为 过 程 名 。 这 时 par C 的 解释 稍微 复杂 一 
些 。 为 了 以 后 某 个 时 候 引 用 此 C 过 程 ,必须 知道 
Call A(C) 这 个 调用 语句 是 在 哪个 过 程 将 C 当 作 实 
际 参数 传递 给 A 过 程 ( 本 例 即 指 B 过 程 )。 为 此 ,要 
求 传递 两 个 参数 :实际 过 程 C 的 程序 人 口 地址 以 及 
过 程 B 的 display 表 首 地 址 。 具 体 做 法 是 在 过 程 A 
的 活动 记录 的 临时 变量 区 中 建立 两 个 相继 单元 B， 
和 Bs ,并 执行 : 

Bi := 实际 过 程 C 的 程序 和 人口 地 址 ; 

B: : 王 把 过 程 名 当 作 实 参 传递 的 那个 过 程 的 
display 表 首 地 址 ( 即 B. display 首 地 址 ); 

然后 执行 语句 “(i 十 4)[LTOPJ: 二 addr(Bi);”, 这 样 间 接 引 用 (i 十 4)[TOPJ 形 参 单元 便 获 
得 过 程 C 的 程序 人口 地 址 (参见 图 8. 12) ,由 Bs 单元 可 获得 实际 过 程 C 的 全 局 display。 

@ 传 递 形 式 参 数 Ti (包括 形式 过 程 名 ), par Ti 可 以 理解 为 传递 形 参 内 容 , 即 (i 十 4) 
[TOP]:=(i 十 3)LSP] 。 

例如 ,有 如 下 三 个 程序 段 ,B 过 程 调 A,A 过 程 调 D,D 过 程 调 C: 


过 程 A 
活动 记录 


过 程 B 


8.12 数据 区 建立 
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PROC B; Proc A(X); Proc D(P); 


proc C; 
end; call D(X); call P; 
call A(C); end end 
end 
(a) 将 实际 过 程 名 C 当 (b) 传递 形式 过 程 名 X (c) 调用 形式 过 程 P, 实 
作 实 际 参数 传递 际 是 调用 过 程 C 


现在 来 看 看 每 次 调用 之 后 数据 区 的 建立 情况 (图 8. 13)。 


| 2 mso 
A， B: 单 元 内 容 | 全 局 display 
老 SP 老 SP 
A 过 程 数 据 区 D 过 程 数 据 区 C 过 程 数 据 区 


8.13 过 程 调用 及 数据 区 


这 时 C 过 程 数 据 区 中 全 局 dispaly 是 存放 Bs 的 内 容 , 不 再 是 施 调 过 
址 而 是 B， display 首 地 址 。 这 就 是 在 数据 区 的 活动 记录 中 设置 全 局 dis 
见 , 若 不 允许 把 过 程 名 当 作 实 参 传 递 ,那么 也 就 没有 必要 保留 全 局 displa 
display 表 , 而 改 用 静态 链 , 用 于 指向 它 的 直系 外 层 的 最 新 活动 记录 首 地 
序 就 是 按 这 种 方法 设置 的 。 

加 传递 标号 。 其 处 理 办 法 与 传递 过 程 名 相 类 似 。 如 图 8. 14 
所 示 ,假定 过 程 P 把 标号 当 作 实 际 参数 传递 给 Q, 随 后 Q 又 通 
过 引用 相应 的 形式 参数 把 控制 转移 到 标号 T 所 指 的 地 方 。 如 果 
标号 工 是 在 过 程 Ps 中 定义 的 (P。 或 是 P 自身 或 是 P 的 直系 外 
层 ) ,那么 , 当 从 Q 过 程 转向 工时 必须 首先 把 P。 的 活动 记录 变 成 


程 D. display 的 首 地 
play 的 目的 。 由 此 可 
y 单 元 ,甚至 无 需 建 立 
止 。EL 语言 的 编译 程 


Call Q(T) 


现行 活动 记录 。 这 就 是 说 ,对 于 了 中 的 par 工 , 不 仅 要 把 标号 工 的 
相对 应 地 址 传 给 Q, 而 且 应 把 Po 的 活动 记录 首 地 址 也 传 过 去 。 因 


最 
CallP 


此 par 工 可 理解 为 在 Q 活动 记录 的 临时 变量 区 建立 两 个 相继 单元 8.14 传递 标号 
B, 和 B:(B 用 作 存 放 标 号 的 对 应 地 址 ,Bs 用 于 存放 Po 活动 记录 的 首 地 址 ) ,然后 将 Bi 地 


址 传 给 Q 过 程 的 相应 形 参 单元 。 


这 样 当 Q 中 出 现 GOTO Z 语句 (Z 是 形式 参数 ,其 中 存 有 B, 地 址 ) 时 ,相当 于 转向 间接 地 


址 Z, 实 际 上 是 转向 标号 工 去 执行 。 而 数据 区 也 要 逐 级 退 栈 , 直 至 SP 指 
另外 “jsr n,Q” 指 令 可 解释 成 : 


向 Po 活动 记录 。 
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1[TOP]:=SP; 

:一 SP 十 d; 
3LTOP] 

:一 B2; 


4[TOP]:=n; 
jsr Q; 


(2) 过 程 进入 段 。 


SP,=TOP 十 1 
1LSP]: 王 返回 地 址 ; 
TOP;=TOPTL 


/ 关 保 护 老 SP*/ 

/* 建 立 全 局 display。 若 调用 实际 过 程 , 则 
传递 施 调 过 程 的 display 表 首 地 址 * / 

/否则 传递 把 过 程 名 当 作 实 参 传递 的 那个 过 程 的 
display 表 首 地 址 x*/ 

/nn 为 参数 个 数 x / 


/* 建 立新 数据 区 首 地 址 x* / 
/* 保 护 返 回 地 址 * / 


构造 display 表 , 即 按 全 局 display 指出 位 置 抄 i 项 并 且 加 从 下 返回 结果 
上 本 身 的 SP, 其 中 i 为 过 程 Q 的 静态 层次 LN。 Ki14 

如 果 有 数组 说 明 ,根据 内 情 向 量 表 建立 数组 存储 区 ,并 修改 DR 家 
栈 顶 指针 TOP。 形 参 N 4 

(3) 过 程 返回 段 。 参数 个 数 

当 过 程 Q 工作 完毕 要 返回 到 调用 段 时 , 若 return 语句 含有 全 D 地 址 | Ki1 
返回 值 或 Q 是 个 函数 过 程 , 则 把 已 算 好 的 值 传送 到 某 个 特定 的 返回 地 址 


寄存 器 ,然后 执行 : 


[ 例 8. 2] 对 下 面 求 阶乘 的 程序 ,在 第 二 次 调用 函数 下 之 
后 , 试 给 出 栈 式 数据 区 内 容 。 假 定 每 个 过 程 有 存储 函数 下 的 结 
果 单 元 。 


TOP:=SP—1; 
SP: 王 0LSP]; 
X:=2[TOP]; 
JMP OLX]; 


program M; 


var A, B: integer; 
function F(N:integer) :integer; 
if N 委 2 then return (N) 
else return (Nx F(N—1)); 


begin 
read (A); 
B:=F(A); 
write (B) 


end. 


/* 退 回 到 施 调 过 程 数据 区 * / 


/#* 返 回 地 址 * / 


/x* 设 A=5x/ 


K+6(SP) 
从 下 返回 结果 


D 表 


形 参 N 


图 8.15 栈 式 数据 区 结构 


图 8. 15 是 第 二 次 调用 函数 F( 即 递归 调用 F) 之 后 , 栈 式 数据 区 的 存储 结构 图 。 可 以 想 


象 ,在 有 结果 返回 前 运行 栈 一 直 在 增长 ,本 例 中 栈 内 最 多 可 达 4 个 下 的 数据 区 。K 与 KK 十 1 单 
元 是 用 作 存 放 系 统 有 关 参 数 。 
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8.3” 堆 式 存储 管理 


前 面 讨论 了 两 种 存储 分 配 技术 。 静 态 存 储 分 配 要 求 在 编译 时 能 知道 所 有 变量 的 存储 要 
求 , 而 栈 式 存 储 分 配 则 要 求 在 过 程 的 入 口 处 必须 知道 所 有 的 存储 要 求 。 对 于 可 变数 组 的 尺寸 
要 求 在 运行 前 知道 ,因此 运行 前 仍 可 为 它 分 配 存储 空间 。 此 外 ,由 于 过 程 的 数据 区 总 是 局 部 于 
过 程 的 , 当 过 程 退出 时 ,就 可 以 退出 它 占有 的 存储 空间 。 但 有 些 语 言 中 的 某 些 数据 结构 不 满足 
这 两 种 分 配 策略 。 例 如 ALGOL 语言 的 OWN 变量 , 它 所 占用 的 数据 空间 并 不 随 它 所 属 的 过 
程 或 分 程序 的 进出 而 产生 或 消失 。 因 此 ,所 有 OWN 变量 的 存储 空间 将 一 劳 永 逸 地 分 配 在 一 
个 不 变 的 静态 区 内 。 一 般 来 说 ,可 以 把 整个 程序 的 所 有 OWN 数据 集中 存放 在 运行 栈 的 前 面 。 

在 Pascal 中 ,要求 用 指针 控制 的 链表 结构 所 占用 的 空间 必须 是 全 局 性 的 ,不 是 局 部 于 某 
个 过 程 的 。Pascal 使 用 new(p) 来 动态 地 申请 存储 空间 ,用 dispose(p) 来 释放 由 p 指向 的 存储 
空间 。PL/1 也 有 类 似 语句 ,用 allocate 分 配 存储 空间 ,free 释放 存储 空间 。 所 有 这 些 数据 存 
储 空间 的 请 求 与 释放 不 再 遵循 后 进 先 出 原则 ,而 且 是 非 局 部 的 。 通 常 采用 的 方法 是 让 运行 程 
序 持 有 一 块 专用 的 全 局 存储 空间 来 满足 这 些 数据 的 存储 要 求 。 这 样 的 存储 空间 就 称 作 堆 
Cheap) 。 堆 通常 是 一 片 连 续 的 .足够 大 的 存储 区 , 当 需 要 时 ,就 从 堆 中 分 配 一 小 块 存储 区 ; 当 用 
完 时 ,及 时 退回 给 堆 。 这 就 是 堆 管 理 问 题 , 堆 的 管理 比 栈 管理 要 复杂 得 多 ,下 面 只 能 原理 性 地 
介绍 一 些 管理 技术 。 


8. 3.1 堆 式 存储 管理 技术 


常用 的 堆 式 存储 管理 方法 有 三 种 :固定 长 块 管理 .可 变 长 块 管理 、 按 块 长 不 同 分 为 若干 
集合 。 
1) 固定 长 块 管理 
这 是 一 种 最 简单 的 堆 管理 方法 。 这 种 方法 把 堆 空 间 分 为 许多 固定 长 的 块 ,每 块 大 小 由 具 
体 应 用 而 定 ,每 一 块 的 第 一 个 字 用 作 指 示 器 ,将 所 有 未 用 块 链接 起 来 ,形成 一 张 可 利用 表 。 当 
堆 管理 程序 收 到 分 配 空间 请 求 时 ,就 查询 可 利用 表 , 将 一 空白 块 的 首 指示 器 送 给 申请 者 ,并 修 
改 这 张 可 利用 表 。 此 过 程 可 用 如 下 函数 过 程 实现 之 。 

设 可 利用 表 的 表 头 指针 存 于 head。 

FUNCTION Get-block(head); 
IF head=null THEN ERROR / 关 若 可 利用 表 已 空 , 则 出 错 </ 


ELSE 
BEGIN 
P:=head; 
head:=P .LINK; /* 修改 后 可 利用 表 的 头 指针 仍 存 headx / 
RETURN (P) /其 中 PP 返回 给 用 户 */ 
END 
2) 可 变 长 块 管理 


在 许多 语言 中 允许 使 用 可 变 长 的 数据 结构 。 如 果 采 用 固定 长 分 块 法 则 不 能 适应 这 些 语 言 
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的 空间 要 求 。 我 们 仍 使 用 链表 将 堆 中 未 用 块 链接 起 来 ,不 过 这 些 块 的 长 度 是 不 等 的 而 已 。 当 
申请 分 配 空间 时 , 堆 管理 程序 从 可 利用 表 中 查 得 一 未 用 块 ,如 果 该 未 用 块 大 于 所 需 空间 , 则 将 
它 分 为 两 部 分 ,一 部 分 等 于 申请 空间 ,返回 给 申请 者 ,剩余 部 分 仍 留 在 可 利用 表 内 。 这 样 久 而 
久之 , 留 在 可 利用 表 中 的 块 越 来 越 小 ,最 后 形成 许多 碎片 。 这 种 碎片 称 作 外 部 碎片 。 还 有 一 种 情 
况 是 查 得 的 那个 块 空间 只 比 申 请 空间 大 一 点 ,不 值得 再 一 分 为 二 ,就 把 整 块 分 配给 申请 者 ,那么 
在 这 个 已 分 配 的 块 中 就 包含 一 小 块 无 法 使 用 的 区 域 , 这 种 情况 称 作 内 部 碎片 。 当 这 两 种 碎片 很 
多 时 ,会 出 现 碎片 的 总 和 远大 于 申请 空间 ,但 却 无 法 满足 申请 者 要 求 的 情况 。 所 以 ,在 各 种 可 变 
长 堆 管 理 技术 中 主要 考虑 的 因素 是 如 何 减少 碎片 的 影响 。 对 此 ,通常 有 三 种 不 同 分 配 策略 : 

巴 首 次 匹配 式 堆 管理 策略 。 为 适应 可 变 长 分 块 管理 ,每 个 未 用 块 的 第 一 字 内 再 增加 表示 
该 块 长 度 的 区 段 。 首 次 匹配 算法 的 基本 思想 是 沿 可 利用 表 顺 序 查 找 ,选择 第 一 次 遇 到 的 大 于 
所 需 空间 的 未 用 块 。 为 减少 外 部 碎片 ,同时 要 求 从 该 块 划 出 所 需 空间 之 后 剩余 部 分 不 少 于 某 
个 规定 长 度 。 如 果 不 满足 这 两 点 要 求 , 则 沿 可 利用 表 的 链 继续 向 前 查找 符合 条 件 的 块 。 

开始 ,首次 匹配 算法 都 是 从 可 利用 表 的 表 头 查 起 。 后 来 D. E. Knuth 提出 改进 算法 ,本 次 
搜索 从 上 一 次 搜索 的 终止 点 继续 沿 链 搜索 ,这 种 算法 可 以 使 平均 搜索 长 度 从 N/2 减少 到 N/3 
CN 为 可 利用 表 中 的 总 块 数 ) 。 

在 释放 一 块 存储 区 时 ,为 增 大 各 未 用 块 的 长 度 , 要 求 把 所 释放 的 块 插入 到 可 利用 表 中 , 同 
时 检查 相 邻 两 块 是 否 也 为 未 用 块 ,若是 , 则 把 它们 合并 成 一 块 ,其 目的 也 是 为 了 减少 外 部 碎片 。 
这 种 并 块 操作 是 很 简单 的 ,但 若 用 单 链表 实现 查找 前 驱 与 后 继 块 却 不 那么 容易 。 为 此 ,有 些 可 
利用 表 采 用 双向 链表 ,以 方便 释放 块 插入 与 并 块 操作 。 

加 最 优 匹配 式 堆 管理 策略 。 假 定 申请 空间 为 SIZE 单元 , 堆 管理 程序 就 从 可 利用 表 查 询 ， 
试图 找 出 一 个 未 用 块 ,其 空间 正好 等 于 SIZE; 若 找 不 到 , 则 从 未 用 块 中 找 出 容量 大 于 SIZE 的 
最 小 者 ,分 配给 申请 者 。 这 种 策略 看 来 合理 ,但 太 花 时 间 了 。 

图 最 差 匹配 式 堆 管理 策略 。 将 可 利用 表 中 不 小 于 SIZE 且 又 是 可 利用 表 中 最 大 的 未 用 块 
划一 部 分 给 申请 者 。 为 了 节省 查找 最 大 未 用 块 的 时 间 ,和 希望 可 利用 表 的 未 用 块 从 大 到 小 排序 ， 
这 样 分 配 时 无 需 查 找 ,只 需 从 表 中 取出 第 一 个 未 用 块 划分 一 部 分 给 申请 者 ,再 将 剩余 部 分 插 人 
到 可 利用 表 的 适当 位 置 上 。 

下 面 举例 说 明 这 三 种 管理 策略 的 内 存 分 配 情 况 。 设 可 利用 表 如 图 8. 16 所 示 : 


1000 
Ess | J 
AV 
| SPACE SPACE SPACE 
SIZE 一 块 大 小 


结构 。 , . 
块 结构 : LINK 一 一 链 指 针 ; 


ull 


0 未 用 块 
1 已 用 块 


of 700 | | 


8.16 申请 前 的 可 利用 表 
2 


那么 , 按 三 种 管理 策略 ,内 存 分 配 结果 将 可 利用 表 变 成 图 8. 17 所 示 : 


首次 匹配 式 管理 : 于 -| 0T 800 0 有 | ol 5000] null 
AV | 

最 优 匹 配 式 管理 : 于 -| 1 | Ts | 16 | oD | null 
AV 

最 差 匹配 式 管理 : 二-[0T150 二 0] go0] | null 
AV 


图 8.17 申请 后 的 可 利用 表 
下 面 给 出 首次 匹配 式 管理 算法 ,其 他 算法 也 可 类 似 写 出 。 
FUNCTION ALLOCATE_FIRST (AV,MIN,N) ”/x AV 是 可 利用 表 表 头 ; 
MIN 是 规定 的 最 小 块 尺 寸 ;N 是 用 户 请 求 存 储 大 小 ;返回 给 用 户 的 内 
存 指针 为 P,Q 是 局 部 区 指针 变量 * / 


己 


[= 


BEGIN 
Q:=AV; 
WHILE QAnull DO 
IF Q¢ . SIZE>N THEN 
IF Q+。SIZE 一 N 志 MIN THEN 
BEGIN 
Qf+。SIZE:==Qf+。SIZE 一 N; 
P:==Q+Q+ . SIZE; 
P¢ .SIZE:=N; RETURN(P) 
END 
ELSE 
RETURNCQ) :… /* 修改 可 利用 表 的 链 x*/ 
ELSE 
Q:=Q+t . LINK; 
ERROR ” /x* 找 不 到 满足 用 户 申 请 的 块 , 转 出 错 处 理 */ 
END:; 
3) 按 块 长 不 同 分 为 若干 集合 
这 是 介 于 上 述 两 种 管理 方法 之 间 的 一 种 堆 存储 管理 方法 。 它 把 整个 堆 空 间 分 为 若干 集 
合 , 每 个 集合 中 块 长 是 相等 的 ,并 把 它们 链接 在 一 起 。 当 申请 m 个 长 度 为 n 的 块 时 ,就 到 块 长 
为 n 或 稍 大 于 n 的 集合 中 去 查找 可 利用 块 。 如 果 该 集合 中 有 m 个 这 样 的 块 , 则 满足 申请 要 
求 ; 如 果 不 够 m 块 , 则 从 块 长 较 大 集合 中 取 一 块 或 多 块 ,并 把 它们 都 分 为 相等 的 两 块 ( 称 为 双 
胞 块 ) ,然后 再 进行 分 配 。 
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这 种 技术 除了 可 以 减少 搜索 时 间 外 ,还 有 一 个 优点 是 把 两 小 块 合并 为 较 大 块 比较 容易 实 
现 。 其 缺点 是 会 使 内 部 碎片 增加 ,因为 分 配 的 块 可 能 大 于 所 申请 的 长 度 。 另 外 ,外 部 碎片 也 可 
能 增加 。 因 为 ,虽然 两 块 是 毗邻 的 ,但 由 于 它们 不 是 双 胞 块 ,所 以 不 能 合并 。 尽 管 这样 ,这 种 技 
术 还 是 比 前 两 种 技术 更 为 有 效 。 


8.3.2 堆 空 间 的 释放 与 无 用 单元 收集 


1) 堆 空间 的 释放 

在 程序 设计 语言 中 有 堆 空 间 的 释放 语句 , 像 Pascal 中 的 dispose(P),PL/1 中 的 free 等 语 
句 都 是 释放 语句 。 这 些 语句 是 将 指针 变量 P 所 指 的 存储 块 退回 到 可 利用 表 中 。 最 简单 的 处 
理 办 法 是 将 释放 块 作为 新 块 插入 到 可 利用 表 的 链 首位 置 。 但 这 种 回收 策略 有 个 缺点 ,就 是 在 
程序 运行 一 段 时 间 后 ,可 利用 表 中 将 含有 大 量 小 块 ,分 配 程序 的 搜索 时 间 将 变 得 过 分 宛 长 ,而 
且 有 不 能 满足 用 户 申 请 要 求 的 危险 。 一 种 较 好 的 解决 办 法 是 将 两 个 连续 的 小 块 合并 成 一 大 
块 。 对 新 释放 的 块 , 按 存储 地 址 大 小 在 可 利用 表 中 检查 是 否 有 与 它 是 相 邻 关系 的 块 , 若 有 就 将 
它们 合并 成 一 大 块 ,否则 仅 按 地 址 大 小 插入 到 适当 位 置 。 为 实现 此 操作 ,可 利用 表 必 须 按 块 的 
地 址 顺序 组 织 , 以 便 搜索 和 插入 。 

在 Pascal 中 , 堆 空 间 是 全 局 量 。 设 P 是 某 过 程 内 的 局 部 变量 ,执行 new(P) 以 后 ,在 堆 中 
为 P 分 配 一 块 空间 ,如 果 在 退出 该 过 程 前 没有 把 P 空间 释放 掉 ( 这 不 算 语法 错 或 语义 错 ) , 那 
么 在 退出 该 过 程 后 P 所 指 的 空间 既 没 有 用 但 又 不 能 再 分 配给 其 他 用 户 , 造 成 资源 浪费 ,并 经 
常 导 致死 机 。 

为 了 克服 这 个 问题 ,有 些 语言 的 编译 程序 提供 堆 管理 程序 ,对 无 用 单元 进行 收集 。 

2) 无 用 单元 收集 (garbage collection) 

无 用 单元 收集 程序 一 般 是 在 堆 的 可 利用 空间 几乎 耗 尽 ,以 至 于 不 能 满足 用 户 申 请 存储 区 
要 求 ,或 者 发 现 可 利用 空间 已 降 至 某 个 危险 点 时 才 执 行 。 无 用 单元 收集 过 程 通常 分 为 两 个 阶 
段 :第 一 阶段 称 为 作 标记 阶段 , 即 对 已 分 配 的 块 查阅 这 一 段 时 间 内 是 否 被 访问 过 , 若 被 访问 过 
就 作 一 标记 ;第 二 阶段 是 收集 阶段 , 即 把 所 有 未 加 标记 的 存储 块 加 入 到 可 利用 表 中 ,然后 消除 
加 过 标记 的 那些 存储 块 的 标记 ,包括 访问 标记 。 这 种 方法 可 以 防止 死 块 的 产生 ,因为 加 上 标记 
的 块 不 会 被 释放 (表示 它 还 在 用 ) ,而 没有 加 标记 的 块 都 会 被 释放 到 可 利用 表 中 。 

这 种 无 用 单元 收集 技术 存在 一 个 缺点 : 它 的 开销 (主要 指 收 集 时 间 ) 随 可 利用 空间 的 下 降 
而 增加 。 解 决 这 个 问题 的 途径 是 在 可 利用 空间 降 至 某 个 数值 时 就 调用 收集 程序 ,使 得 可 利用 
空间 总 保持 在 较 佳 的 状态 。 另 外 ,在 执行 无 用 单元 收集 程序 时 必须 中 断 用 户 程 序 的 执行 ,要 等 
到 收集 程序 执行 结束 后 再 执行 用 户 程 序 。 所 以 , 若 频繁 地 执行 收集 程序 ,必然 影响 计算 机 的 运 
算 速 度 。 因 此 ,选择 执行 收集 程序 的 时 刻 必 须要 合理 。 

上 述 的 无 用 单元 的 收集 只 能 收集 死 块 单元 (包括 长 期 不 用 单元 ) 和 外 部 碎片 ,不 能 收集 内 
部 碎片 。 解 决 这 个 问题 的 方法 是 在 收集 的 第 一 阶段 ,标记 的 对 象 不 是 以 存储 块 为 单位 而 是 以 
存储 单元 为 单位 。 第 二 阶段 是 既 实行 收集 又 进行 内 存 大 搬家 ,对 每 一 使 用 块 重新 定位 ,将 已 用 
块 归 于 一 端 , 腾 出 另 一 端 为 可 利用 空间 。 这 种 操作 可 以 收集 所 有 无 用 单元 。 

Pascal 语言 在 运行 时 的 数据 区 存储 管理 ,采用 将 栈 与 堆 安 排 在 存储 区 两 端 ,各 自 无 关 地 向 
中 间 靠 扰 , 如 图 8. 18 所 示 , 其 中 SP 为 栈 指针 ,NP 为 堆 指针 。 在 运行 时 , 当 SP 与 NP 相 碰 时 
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表示 存储 空间 用 完 , 这 时 应 调用 无 用 单元 收集 程序 。 当 收集 后 仍 不 满足 存储 区 要 求 ,就 得 向 用 
户 发 出 内 存 已 尽 的 信息 ,同时 停止 用 户 程序 的 执行 。Pascal 语言 若 没有 使 用 可 变数 组 ,每 个 过 
程 的 数据 区 尺 十 在 编译 时 是 知道 的 ,然而 过 程 调用 深度 却 不 易 估 计 , 而 且 new(P) 语 句 的 使 用 
也 是 动态 变化 的 。 因 此 ,数据 区 是 否 够 用 ,事先 是 无 法 估计 的 ,NP 与 SP 的 碰头 也 是 难免 的 。 
这 也 说 明了 设置 堆 管理 程序 的 重要 性 。 


“上 十 人 
SP NP 


8.18 ”Pascal 的 存储 管理 


习 题 
8-1 设 有 FORTRAN 说 明 语 句 : 
REAL A,B,C,D 
INTEGER E(5,5) 
EQUIVALENCE(A,B,E(2,2)),(C,D,E(3,3)) 
试 构造 等 价 环 ,并 求 出 相对 位 移 量 ( 设 整 型 量 占 一 个 字 编 址 , 实 型 量 占 两 个 字 编 址 ) 。 
8-2 假设 有 如 下 一 段 FORTRAN 的 说 明 语句 序列 : 
SUBROUTINE EXAMPLE (X.Y) 
INTEGER A.B(20),C(10,15),D,E 
COMPLEX F,G 
COMMON/CBK/D,E,F 
EQUIVALENCE (G,B(2)),(D,B(1)) 
请 给 出 数据 区 EXAMPLE 和 CBK 中 各 符号 名 的 相对 地 址 ,其 中 COMPLEX 为 复 型 , 占 两 个 字 
编 址 。 

8-3 出 现在 公用 区 中 等 价 环 元 素 的 地 址 分 配方 法 和 非 公 用 区 中 等 价 环 元 素 的 地 址 分 配 
方法 有 什么 不 同 ? 为 什么 ? 

8-4 考虑 运算 量 均 为 整数 的 简单 算术 表达 式 , 给 出 确定 这 种 表达 式 所 需 最 少 临时 单元 
个 数 的 算法 。 假 定 不 许 用 代数 规则 变更 表达 式 的 计 值 顺序 。 例 如 ,A 十 Bx C 需要 一 个 临时 单 
元 ,(A 十 B) * (C 十 D) 需 要 两 个 临时 单元 。 

8-5 令 F(X,Y 了 ) 是 一 个 FORTRAN 函数 过 程 , 写 出 过 程 调用 F(F(A 十 B,C) 十 D,E) 的 
中 间 代 码 。 

8-6 设 下 面 是 一 段 说 明 存 储 管理 的 例子 , 画 出 进入 过 程 THIRD, 但 未 从 THIRD 返回 
时 的 数据 区 结构 及 详细 内 容 。 假 定 MAIN.FIRST.SECOND,THIRD 过 程 的 数据 区 首 地 址 
分 别 为 spo ,spi，sps ,sps 。 

program MAIN; 
var A,B,C:integer; 
procedure SECOND(var G,X.:integer); 
var B.D.:integer; 
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El:array[1..X] of integer; 
procedure THIRD (var S,T.:integer); 


var A:integer; 
end 


call THIRD (B,D); 
call THIRD (A+ B,C D); 


end 
procedure FIRST(var Y,Z:integer); 
var M,N.integer; 


M: 一 10; 
call SECOND (N,M); 


end 
call FIRST (C,A); 
end 
8-7 给 出 8-6 题 例子 中 语句 “call THIRD(A 十 B,C 十 D)” 的 中 间 代 码 形 式 ( 采 用 传 地 
址 方式 ,指令 采用 变 址 的 存 取 指令 如 LOAD Ri ,D(X) 和 运算 指令 OP Ri ,R: 或 op R,M 等 )。 
8-8 ”对 于 下 面 的 程序 段 : 
program A:; 
var M,N.:integer; 
procedure GCD(M.,N) :integer; 
begin 
if N>M then return(GCD(N.M)) 
else if N=0 then return(M) 
else return (GCDCN ,REMCM,N)))， 
end; 
begin 
read (M,N); 
GCD(M.,N) 
end 
设 M=40,N==12, 请 列 出 运行 时 数据 区 变化 情况 。 其 中 GCD 表示 求 最 大 公约 数 ,REM(M， 
N) 表 示 M 除 以 N 后 的 余数 ( 它 是 标准 函数 ,不 必 构 造 数 据 区 )。 
8 一 9 试 给 出 堆 式 已 分 配 存储 块 的 释放 算法 ,将 可 释放 块 退回 给 可 利用 表 , 若 它 与 可 利用 
表 中 的 块 内 存 地 址 相连 ,要 进行 合并 成 大 块 的 操作 。 
8-10 试 比较 各 种 堆 管理 技术 的 优 缺 点 及 其 改进 方法 。 另 外 试 结 合 Pascal 语言 的 特点 ， 
选择 一 种 合适 的 堆 管理 技术 ,并 给 出 运行 时 的 存储 管理 算法 。 
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9 代码 优化 


代码 优化 的 目的 是 提高 目标 代码 的 运行 效率 。 所 谓 效率 是 指 目标 代码 的 运行 时 间 较 短 ， 
占有 内 存 空间 较 少 。 代 码 优化 实际 上 是 对 代码 进行 等 价 变换 ,由 一 组 代码 变 成 另 一 组 代码 。 
等 价 的 含义 是 指 两 组 代码 运行 结果 完全 相同 。 优 化 可 以 在 三 个 级 别 上 进行 : 源 程序 级 .中 间 代 
码 级 和 目标 代码 级 。 源 程序 级 是 指 语言 和 算法 ,这 不 是 本 文 讨论 的 范畴 ;中 间 代 码 级 的 优化 是 
本 章 讨论 内 容 ; 目标 代码 级 的 优化 在 很 大 程度 上 依赖 于 计算 机 的 硬件 ,我 们 不 准备 详细 讨论 
它 , 而 是 结合 下 一 章 的 目标 代码 生成 一 起 讨论 。 

中 间 代 码 级 的 优化 是 与 计算 机 硬件 无 关 的 一 类 优化 。 
优化 种 类 很 多 ,有 些 优 化 花 的 代价 不 大 但 效果 明显 ;有 的 
优化 花 的 代价 很 大 但 效果 其 小 。 这 里 所 说 的 代价 是 指 优 
化 算法 的 复杂 性 , 它 包 括 编程 的 难 易 程度 以 及 算法 时 间 复 
杂 性 。 优 化 程度 与 优化 代价 的 关系 可 用 图 9. 1 表示 。 其 
中 “手工 水 平 " 是 指 由 人 工 通过 汇编 程序 编制 的 软件 , 它 的 
运行 效率 最 高 ;而 未 经 优化 的 由 编译 程序 产生 的 代码 ,其 
效率 要 低 得 多 。 有 些 优 化 花 的 代价 不 大 ( 见 图 9.1 的 开始 


手工 水 平 


3 
王 芭 


优化 各 


阶段 ) ,但 优化 程度 改善 明显 ,而 优化 接近 于 人 工 水 平时 ， 优化 代价 
优化 的 效果 改善 就 不 大 了 。 国生 人 全 本 下 下 国 
为 了 叙述 方便 ,我 们 以 后 把 四 元 式 写 成 更 直观 的 形式 ， 
(op,B,C,A) 写成 A:=BopC 
(jrop,B,C,L) 写成 iB rop C goto 工 
Oe 写成 goto L' 


本 章 中 的 优化 是 对 四 元 式 代码 进行 的 ,讨论 的 内 容 也 适合 于 其 他 中 间 代 码 的 优化 。 


9.1 优化 概述 
中 间 代码 的 优化 可 归结 为 三 类 优化 ;局 部 优化 、 循 环 优化 和 全 局 优化 。 


9.1.1 局 部 优化 简介 


局 部 优化 是 指 对 一 段 顺序 执行 语句 序列 的 优化 。 考 虑 如 下 求 圆 环 内 外 圆周 之 和 及 圆 环 正 
反 两 面 面 积 之 和 的 程序 段 ; 
(1) Pi:=3.14; 
(2) A:=2*x Pix (Rr); 
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(3) B:=A; 
(4) 也 :一 2x* Pix (Rr) * (R—r); 
其 中 式 (3)“B.: 二 A” 是 一 条 多 余 指 令 , 它 是 为 后 面 讨论 的 需要 
而 人 为 加 上 的 。 
通过 语法 制导 翻译 可 生成 图 9.2 所 示 的 四 元 式 中 间 代 码 程序 
段 。 对 这 个 程序 段 ,直观 上 可 进行 如 下 一 些 优化 。 
1) 合并 已 知 量 
合并 已 知 量 是 指 在 编译 时 已 知 运算 对 象 都 是 常量 ,这 时 不 必 
生成 目标 代码 等 到 运行 时 才 计 算 ,而 是 直接 对 它 计 值 ,并 用 计 值 结 
果 代 替 表 达 式 的 计算 代码 。 图 9. 2 中 的 式 (2) 与 式 (6) 都 有 计算 
2* Pi 的 算式 ,其 中 Pi= 王 3. 14, 所 以 四 元 式 (2) 与 (6) 可 直接 写成 
We 
2) 删除 公共 子 表达 式 


《了 六 ;三 旬 岗 
(2) T=2*B 
(3) Ts :=R+r 
(4) Aj=T, * Ts 
(5) B:=A 

(6) Ti :一 2 x Pi 
(7) T,:=R+r 
(8) Ti :=T, x T, 
(9) Te:=R—r 


(10) B:=Ts * Te 
图 9.2 四 元 式 程序 段 


对 于 两 个 相同 的 表达 式 计算 , 若 它 的 计算 结果 相同 , 则 没有 必要 重复 地 生成 两 条 运算 指 
令 。 图 9.2 中 的 四 元 式 (3) 与 (7) 都 有 R 十 r 计 算 , 在 式 (3) 到 式 (7) 之 间 没 有 改变 R 与 + 的 值 ， 
显然 两 次 计算 结果 是 相等 的 。 因 此 式 (7) 中 的 R 十 r 计算 是 多 余 的 ,可 以 把 式 (7) 变 换 成 Ti ;== 


T: 。 也 就 是 说 ,相同 的 运算 只 需 保留 计算 一 次 以 供 重复 使 用 。 

3) 变量 传播 与 无 用 赋值 删除 

通过 上 述 两 步 优 化 后 有 Ti 三 Ts (:=6.28).T: 王 Ti (: 王 R+ 
r) 。 显 然 式 (8) 中 引用 Ts 与 引用 T 效果 相同 ,引用 T, 与 引用 Ts 
效果 也 相同 ,这 称 作 变量 传播 。 因 此 , 式 (8) 可 变换 成 Ti :二 Ti * 
Ts。 这 么 一 变换 ,程序 中 再 也 没有 引用 式 (6) 中 的 Ts 和 式 (7) 中 
的 T, ,这 两 式 成 了 无 用 赋值 ,可 以 删除 。 

另外 , 式 (5) 对 B 赋值 , 式 (10) 重 新 对 B 赋值 ,前 一 赋值 到 后 
一 赋值 之 间 没 有 引用 B 的 值 , 可 以 认为 前 一 个 对 B 的 赋值 是 无 用 
赋值 ,可 以 删除 。 

通过 上 述 三 个 优化 后 ,图 9. 2 的 四 元 式 程序 段 可 以 等 价 变 换 
成 图 9.3 的 形式 。 


9.1.2 循环 优化 简介 


循环 是 指 程序 中 一 段 可 重复 执行 的 代码 序列 。 
设 有 如 下 一 段 源 程序 : 

I= 

for i=1 to 100 do 

A[i,j]:=B[i,j]+2 


《1 Bi= 4 
(2) Ti:=6.28 
(3) Ta :一 R 十 r 
(4) A: 一 Ti * T, 
(8) Ts :=T) * Ts 
(9) Te :一 及 一 


(10) B: 一 Ts * Ts 
图 9.3 等 价 变换 后 的 程序 段 


其 中 ,数组 说 明 为 A,B:array[1:100,1:10] of type, 假 定 下 标 变量 按 一 个 字 编 址 ,根据 7. 4.5 
节 for 语句 的 第 三 种 解释 可 翻译 成 图 9. 4 的 四 元 式 代 码 序 列 。 它 分 为 三 块 程序 段 B, 、B, 和 


226 


Bs ,每 块 内 的 代码 都 是 按 顺 序 执行 的 ,其 中 Bs、Bs 两 块 构成 
循环 代码 序列 。 由 图 可 知 ,循环 内 的 指令 要 执行 100 遍 。 若 
能 对 循环 内 的 代码 进行 优化 . 壁 如 减少 指令 条 数 或 将 乘法 运 
算 变 为 加 法 运算 ,那么 便 能 达到 相当 可 观 的 优化 效果 。 (3) ifi>100 goto (15) 

下 面 讨 论 循环 内 常见 的 三 种 优化 :循环 不 变 运算 外 提 、 


降低 运算 强度 和 变换 循环 控制 变量 。 人 
1) 循环 不 变 运算 外 提 ( 简 称 代码 外 提 ) (6) T=a-ll 
循环 内 不 变 运 算 每 循环 一 次 都 得 计算 一 饥 , 显 然 要 无 亩 ee 

地 浪费 大 量 时 间 , 若 能 将 它 提 到 循环 外 ,让 它 只 计算 一 次 便 (9) Te=b-11 

可 节省 许多 时 间 。 图 9.4 中 四 元 式 (6) 和 (9), 其 运算 对 象 一 3 

是 数组 首 地 址 ,一 是 常量 ,都 是 循环 内 不 变量 ,每 次 循环 其 运 (12) TIT]:=T， 

算 结 果 都 相同 。 因 此 ,可 以 将 它们 外 提 至 循环 入 口 结 点 之 外 C19) 

(14) goto (3) 

( 即 前 置 结 点 )。 


2) 降低 运算 强度 (简称 强度 减弱 ) 
众所周知 ,乘法 运算 要 比 加 法 运算 花 的 时 间 多 好 几 信 ， 图 9.4 循环 语句 代码 序列 
若 能 将 乘法 运算 代 化 为 加 法 运算 ,那么 能 节省 很 多 运行 时 间 。 特 别 是 在 循环 内 的 这 种 变换 ,其 
节省 的 运行 时 间 是 极其 可 观 的 。 图 9.4 的 四 元 式 (4)*T :二 i* 10” 与 式 (7)*T, :一 ix 10” 中 都 
有 ix10 运算 ,Ti 和 T 始终 与 1 保持 线性 关系 。i 经 过 一 次 循环 增加 1, 因 此 Ti 与 Ti 每 经 过 
一 次 循环 增加 10。 我 们 可 把 循环 中 计算 T(T, ) 的 乘法 运算 变换 成 在 循环 入口 前 进行 一 次 乘 
法 运算 ( 算 初 值 ) ,而 在 循环 中 将 它 变 换 为 自 增 加 法 运算 并 置 于 i 的 自 增 运算 之 后 。 这 样 ,就 把 

循环 内 的 乘法 运算 变换 成 加 法 运算 了 。 
3) 变换 循环 控制 变量 并 删除 其 自 增 赋值 式 
循环 控制 变量 的 作用 有 两 个 :一 是 用 于 控制 循环 的 进行 ;二 是 用 于 计算 其 他 变量 的 值 。 如 
果 这 两 种 作用 都 可 以 用 某 种 办 法 加 以 替换 ,那么 它 的 存在 就 没有 意义 , 它 的 自 增 赋值 式 也 可 
删除 。 
(1) 变换 循环 控制 变量 i。 
图 9.4 中 式 (4)“Ti 二 i* 10”, 人 Ti 与 i 成 线性 关系 (还 有 T,、Ts、Ts 也 与 i 成 线性 关系 ), 用 
Ti 来 代替 i 同样 可 起 到 控制 循环 的 作用 。 如 果 把 式 (3)“if i 之 100 goto(15)” 变 换 成 两 条 
指令 : 
(31) R:=10* 100 /x*R 是 临时 变量 */ 
(32) if Ti>R goto(15) 
并 将 式 (31) 置 于 前 置 结 点 中 , 则 其 效果 是 相等 的 。 
(2) 在 图 9.4 中 通过 强度 减弱 不 存在 用 i 计算 其 他 变量 的 算式 。 如 果 存 在 , 则 将 这 些 算式 
化 为 自 增 赋值 形式 。 
经 上 述 变 换 之 后 式 (13)"i; 二 i 十 1” 的 自 增 赋 值 式 可 以 删除 。 
通过 上 述 的 三 种 优化 后 图 9.4 的 循环 语句 代码 序列 可 等 价 地 变换 成 图 9. 5 的 形式 。 其 中 
pe 


B, 块 是 循环 前 唯一 的 前 驱 块 ,因此 也 就 成 了 前 置 结 点 。 

此 外 ,考察 图 9. 5 中 式 (5)“T, : 王 Ti 十 j” 和 式 (8) “Ts :一 
T, 十 j”, 在 计算 T, .Ts 时 用 到 T, 和 T, , 若 能 把 式 (5) 和 式 (8) 化 
为 自 增 赋值 式 , 而 Ti 或 T 在 循环 中 若 没 有 其 他 用 处 , 则 计算 
Ti 或 Ti 的 代码 也 可 以 删除 。 

现 以 式 (5)“T; :一 Ti 十 为 例 讨 论 化 为 自 增 赋 值 式 的 方法 。 

将 式 (5) 的 赋值 式 改 为 等 式 表示 ,对 变量 的 前 后 两 次 赋值 结 
果 用 该 变量 的 不 同上 角 标 加 以 区 别 , 即 有 : 

TT! 二 Tt! 十 j= 二 Ti 十 10 十 j= 二 TT 十 10 
因此 式 (5) 变 换 为 式 (5')“T, :二 Ts 十 10”; 同 样 , 式 (8) 变 换 为 式 
(8 “Ts :三 Ts 十 10”。 将 式 (5) 和 式 (8) 在 循环 前 置 结 点 中 计算 
一 次 ,而 把 式 (5') 和 式 (8') 置 于 i 的 自 增 赋值 式 之 后 。 通 过 这 种 
变换 ,可 将 图 9. 5 化 为 图 9.6 的 形式 ,虽然 (5) 式 与 (8) 式 的 优化 
并 没有 提高 效率 ,但 它 避 免 了 使 用 其 他 变量 计算 该 变量 , 若 其 他 
变量 在 循环 中 无 其 他 用 处 , 则 它 的 定 值 式 也 可 删除 。 


9.1.3 全 局 优化 简介 


经 循环 优化 后 再 做 局 部 优化 , 即 合并 已 知 量 、 删 除 公共 子 表 
达 式 和 变量 传播 等 操作 ,图 9.6 的 Bi 块 可 变换 成 图 9.7 的 形 
式 , 其 中 式 (1)“j :=1> 和 式 (2)“i:= 王 1”,1 和 j 在 Bi 块 中 都 没有 
用 处 , 若 能 知道 在 B, 的 所 有 后 继 块 中 i 和 j 也 没有 用 处 , 则 式 
(1) 和 式 (2) 可 删除 。 另 外 ,图 中 有 TT 二 TT 和 Ts 王 T: ,而 且 在 图 
9.6 中 知道 Bs 块 中 将 引用 Ti、T， 和 T: .Ts , 若 能 知道 B 中 引 
用 Ti.T, 和 T: .Ts 的 值 都 是 仅 由 B; 块 中 定 值 (赋值 ) 所 能 到 达 
的 , 则 可 采用 变量 传播 技术 。 引 用 T, 的 地 方 都 用 T 取代 ,引用 
Ts 的 地 方 都 仅 由 T; 取代 ,这 样 有 关 T4 Ts 的 所 有 运算 代码 都 
可 删除 。 实 际 上 ,Ti 在 Bs 块 中 没有 用 到 ,循环 控制 可 改 用 T,， 
则 对 Ti 的 赋值 也 可 删 去 ,包括 (4) 与 (4 ) 两 式 。 最 后 可 得 图 9.8 
的 形式 。 比 较 图 9. 8 与 图 9. 4 可 知 , 优 化 后 的 效率 已 成 倍 提 
高 了 。 

全 局 优化 还 包括 合并 整个 程序 中 的 已 知 量 , 删 除 不 同 块 内 
公共 子 表达 式 等 。 全 局 优化 要 对 整个 程序 进行 数据 流 分 析 , 其 
算法 相当 复杂 ,而 优化 程度 提高 并 不 明显 ,因此 本 文 不 予 详 细 
讨论 。 

下 面 进一步 讨论 局 部 优化 与 循环 优化 问题 ,并 给 出 实现 算 
法 ,在 讨论 过 程 中 还 将 介绍 一 些 有 关 的 数据 流 分 析 情 况 。 


228 


(4) T':=i* 10 
nD T=i*10 
(3,) R:=10 * 100 


(3,) if T,>R goto (15) 


(5) T:=T+j 
(8) T=Ttj 
(10) T=T, IT 
(1D) T=T,+2 
(12) T,[T,]:=T, 
(4') Ti:=T,+10 
(7') T=T,+10 
(14) goto (3) 


(15) 


图 9.5 循环 优化 后 的 代码 


(1) j=1 

(2) i:=1 

(6) T,:=a-l1l 

(9) Ti:=b-11 

(4) Ti:=i* 10 B， 
(7) Ti:=i* 10 

(5) T=Ttj 

(8) Ts:=Tstj 

(3") R:=10* 100 


(3) ifT>R goto (15) 


(10) T,:=T, IT] 
(11) Ts:=T,+2 
(12) T[T,]:=T, 
(4 )T:=T+10 
(7 )T:=T+10 
(5 ) T:=T+10 
(8') Ts:=Ts+10 
(14) goto (3) 


9.6 进一步 循环 优化 


(6) T,:=a-ll 
(9) Ts:=b-11 
(5) T:=11 

(G3") R:=1000 


B, 
(3) if T>R goto (15) 
(WD jl 
(2) i=1 
(6) Ti:=a-11 (10) T=T, [IT 
(9) Ti:=b-11 (DTe=T+2 
(4) Ti:=10 (12) TIT]:=T。 
(7) T=T, (5') T=Ts+10 
(5) Ts:=11 (14) goto (3) 
(8) T::=T, 
(3") R:=1000 (15 B， 
图 9.7 前 置 结 点 的 优化 图 9.8 全 局 优化 


9.2 局 部 优化 


9.2.1 基本 块 


Gries 指出 一 个 基本 块 是 指 程序 中 一 段 顺序 执行 的 语句 序列 ,其 中 只 有 一 个 人 口 和 一 个 出 
口 。 入 口 就 是 其 中 第 一 个 语句 ,出 口 就 是 其 中 最 后 一 个 语句 。 对 一 个 基本 块 来 说 ,执行 时 只 能 从 
其 入 口 进入 ,从 其 出 口 退出 。 对 一 个 给 定 的 程序 ,可 以 把 它 划 分 为 一 个 系列 的 基本 块 。 在 各 个 基 
本 块 范围 内 ,分 别 进行 优化 。 局 限于 基本 块 范围 内 的 优化 称 为 基本 块 内 的 优化 ,或 称 为 局 部 优 
化 。 在 介绍 基本 块 内 的 优化 之 前 ,我 们 先 给 出 划分 四 元 式 程序 为 基本 块 的 算法 ,其 步骤 如 下 : 

(1) 求 出 四 元 式 程序 中 各 个 基本 块 的 入 口语 句 ,它们 是 以 下 三 种 情况 之 一 : 

串 程 序 的 第 一 个 语句 ; 

@ 能 由 条 件 转移 语句 或 无 条 件 转移 语句 转移 到 达 的 语句 ; 

图 紧 跟 在 条 件 转移 语句 后 面 的 语句 。( 若 条 件 语 句 由 真 转移 和 假 转移 两 条 语句 组 成 , 则 转 
移 语句 后 面 的 语句 是 指 假 转移 语句 后 面 的 一 条 语句 。) 

(2) 对 以 上 求 出 的 每 一 入 口语 句 , 构 造 其 所 属 的 基本 块 。 它 是 由 该 入 口语 句 到 下 一 入 口 
语句 (不 包括 该 人 口语 句 ) 或 到 一 转移 语句 (包括 转移 语句 ) 或 到 一 停 语句 (包括 该 停 语句 ) 之 间 
的 语句 序列 组 成 的 。 

(3) 凡 未 被 纳入 某 一 基本 块 中 的 语句 ,都 是 程序 中 控制 流程 无 法 到 达 的 语句 ,从 而 也 是 不 
会 被 执行 到 的 语句 ,可 把 它们 从 程序 中 删除 。 

例如 ,有 一 段 求 最 大 公 因 子 的 程序 : 

begin 
read X; 
read Yi; 
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while(X mod Y=~>0)do (0) rd x 
begin (2) read Y B， 
T:=X mod Y 
,一 了 ， (3) TI:=XmodY B， 
Xa (4) ifT1<>0 goto (6) 
Y:=T (5) goto (10) 
end; 
(6) T:=X modY 
write Y (7) X:=Y 加 
(8) Y:=T | 
end (9) goto (3) 
由 语法 制导 翻译 生成 的 四 元 式 代 码 如 图 9.9 所 示 。 由 划分 rv 
基本 块 算法 步骤 (1) 的 第 一 种 情况 可 知 ,(1) 式 是 人口 语句 ;由 算 。 | 0 


法 步骤 (1) 的 第 二 种 情况 可 知 ,(6) 式 (10) 式 和 (3) 式 也 是 入 口语 
句 。 由 算法 步骤 (2) 可 知 ,(2)、(5)、(9)、(11) 式 是 出 口语 句 。 因 此 ， 
图 9.9 的 代码 序列 可 划分 成 四 个 基本 块 :B, 、B, 、Bs 和 了 Bl。 

从 9.1 节 知 道 基本 块 内 主要 的 优化 只 有 三 种 :合并 已 知 量 、 删 除 无 用 赋值 以 及 删除 公共 子 表 
达 式 。 

合并 已 知 量 和 删除 公共 子 表达 式 这 两 项 工作 是 比较 容易 做 到 的 ,删除 无 用 赋值 就 难 一 点 ， 
因为 孤立 地 考虑 一 个 基本 块 常常 不 能 确定 一 个 赋值 是 否 真 是 无 用 的 。 通 常 的 无 用 赋值 可 分 为 
如 下 情形 : 

对 某 变量 A 赋值 后 ,该 A 值 在 程序 中 不 被 引用 ; 

@ 对 某 变量 A 赋值 后 ,在 该 A 值 被 引用 前 又 对 A 重新 赋值 , 则 前 一 次 赋值 为 无 用 的 ; 

@ 对 某 变量 A 进行 自 增 赋值 ,如 A: 二 A 十 C, 且 该 A 值 在 程序 中 仅 在 此 自 增 运算 中 被 引用 。 

在 一 个 基本 块 内 ,上 述 情形 @ 的 无 用 赋值 容易 删除 。 情 形 @@ 和 情形 @ 两 种 无 用 赋值 的 删 
除 涉 及 整个 程序 , 需 进行 全 局 分 析 。 


图 9.9 基本 块 划分 


9.2.2 基本 块 的 DAG 表示 


基本 块 内 的 三 种 优化 如 何 实现 ?这 里 介绍 一 种 优化 算法 ,该 算法 使 用 无 环 路 有 向 图 (Di- 
rected Acyclic Graph ,简称 DAG) 作 为 优化 工具 。 
定义 :(1) 若 结 点 ni 有 弧 指 向 结 点 m, 则 ni 是 mi 的 父 结 点 ,ni 是 ni 的 子 结 点 ; 
(2) 若 nnz,…'nk 间 存 在 有 向 弧 m 一 nz 一 … 一 nk, 则 称 ni 到 nx 之 间 存 在 一 条 通 
路 , 若 ni 二 ng, 则 称 该 通路 为 环 路 ; 
(3) 若 有 向 图 中 任 一 通路 都 不 是 环 路 , 则 称 该 图 为 无 环 路 有 向 图 。 
按 定义 ,图 9.10(a) 为 有 环 路 有 向 图 ;图 9.10(b) 为 无 环 路 有 向 图 。 
在 这 一 节 中 要 用 到 的 有 向 图 .是 一 种 其 结 点 带 有 下 述 标 记 或 附加 信息 的 DAG: 
(1) 图 的 叶 结 点 (没有 后 继 的 结 点 ) 以 一 标识 符 ( 变 量 名 ) 或 常数 作为 标记 ,表示 该 结 点 代 
表 了 该 变量 或 常数 的 值 。 如 果 叶 结 点 用 来 代表 某 变 量 A 的 地 址 , 则 用 addr(A) 作 为 该 结 点 的 
标记 ,通常 把 叶 结 点 上 作为 标记 的 标识 符 加 上 下 标 0, 以 表示 它 是 该 变量 的 初 值 。 
(2) 图 的 内 部 结 点 (有 后 继 的 结 点 ) 以 一 运算 符 作为 标记 ,表示 该 结 点 应 用 该 运算 符 对 其 
后 继 结 点 所 代表 的 值 进行 运算 的 结果 。 
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和 A 


(a) 有 环 路 有 向 图 (b) 无 环 路 有 回 图 


图 9.10 有 向 图 

(3) 图 中 各 个 结 点 上 可 能 附加 一 个 或 多 个 标识 符 , 表 示 这 些 标识 符 具 有 该 结 点 所 代表 的 
值 ,简称 附 标 。 

一 个 基本 块 可 用 一 个 DAG 来 表示 。 图 9. 11 列 出 各 种 四 元 式 相 对 应 的 DAG 结 点 形式 
(图 中 有 向 边缘 省 去 箭头 )。 图 中 ,各 结 点 圆圈 中 ni 是 构造 DAG 过 程 中 给 予 各 结 点 的 编号 ,各 
结 点 下 面 的 符号 (运算 符 、 标 识 符 或 常数 ) 是 各 结 点 的 标记 ,各 结 点 右边 的 标识 符 是 结 点 上 的 附 
标 , 除 了 对 应 于 转移 语句 的 结 点 右边 可 附加 一 个 语句 序号 (s) 以 指示 转移 的 目标 外 ,其 余 各 类 
结 点 的 右边 只 允许 加 附 标 。 此 外 ,除了 对 数组 元 素 赋值 的 结 点 (标记 为 [_ ]=) 有 三 个 后 继 外 ， 
其 余 结 点 最 多 只 有 两 个 后 继 。 

DAG 结 点 


四 元 式 (A 


(0) A:=B (:=,B,—,A) A 
op 
(1) A:=op B(op,B,— .A) (m) 


op 
(2) A:=B op CCop,B,C,A) 
B C 
Oa 
th}] 
(3) A:=B[C](=[ J,B[C],—.,A) 
B C 
(s) 
rop 
(4) if B rop C goto (s) (jrop,B.C,(Cs)) 
B C 
(5) DLC]:=B([ J]=.B DLC]) DT 
5 [a = @) 
D C B 


(6) goto (s) (j,—,—,(s)) 
9.11 四 元 式 与 DAG 结 点 
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把 图 中 各 种 形式 的 四 元 式 按 其 对 应 结 点 的 后 继 个 数 分 成 四 种 类 型 :四 元 式 (0) 称 为 0 型 ; 
四 元 式 (1) 称 为 1 型 ;四 元 式 (2),(3),(4) 称 为 2 型 ;四 元 式 (5) 称 为 3 型 。 因 为 对 数组 元 素 赋 
值 的 情况 需 特殊 考虑 ,所 以 算法 暂 不 讨论 它 。 四 元 式 (6) 的 “goto(s)”, 因 其 结 点 孤立 且 构 造 简 
单 ,算法 也 不 涉及 它 。 

在 构造 基本 块 的 DAG 的 算法 前 , 先 给 出 DAG 结 点 的 数据 表示 法 。 假 设 DAG 各 结 点 建 
立 三 项 信息 :(1) 标记 , 叶 结 点 登记 变量 或 常量 的 符号 表 入 口 地 址 ,内 部 结 点 登记 操作 符 ; 
(2) 子 结 点 分 长 子 和 次 子 , 用 链表 连接 ;(3) 附 标 , 填 变 量 的 符号 表 入 口 地 址 ,多 个 附 标 可 拉 成 
链 。 此 外 ,为 了 便于 查阅 结 点 表 , 还 建立 一 张 元 表 , 用 作 登 记 四 元 式 中 除 操作 符 外 的 其 他 三 元 
的 名 称 及 其 在 结 点 表 中 的 序号 。 

例 : 设 有 如 下 四 元 式 序列 : 


A:=B+C 
B:=2*A 
D:=A 


相应 的 DAG 画作 图 9. 12。 它 的 元 表 、 结 点 表 填 写 结果 如 图 9. 13 所 示 , 其 中 每 个 结 点 依次 填 
标记 、 子 结 点 和 附 标 三 种 信息 。 


图 9.12 DAG 图 图 9.13 元 表 与 结 点 表 


建立 基本 块 内 的 DAG 算法 实际 上 就 是 建立 结 点 表 算 法 。 算 法 如 下 : 
PROCEDURE DAG 
BEGIN /x* 本 算法 仅 考虑 0 型 .1 型 和 2 型 x*/ 
将 元 表 与 结 点 表 置 空 ; 
FOR 基本 块 内 每 个 四 元 式 依次 DO /x* 四 元 式 格式 (OP,B,C,A)*/ 
BEGIN 
查 元 表 中 有 无 结 点 node (B) ,车 有 返回 该 结 点 序号 ;否则 建立 一 个 标记 为 B 
的 结 点 ,返回 该 结 点 序号 ; 
CASE 四 元 式 类 型 OF 
0 型 : 
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1 型 :IF node (B). 标 记 王 常量 /* 叶 <*V/THEN {执行 OP B /x* 合 并 已 知 
量 * /操作 ,并 得 值 P, 若 node (B) 是 当前 四 元 式 建 立 的 , 则 删 去 。 
查 有 无 node (P) 结 点 ,有 则 返回 结 点 序号 ,和 否则 建立 node (P) 结 点 
并 返回 其 序号 } 
ELSE { 查 结 点 是 否 有 一 结 点 ,其 后 继 为 node (B) ,标记 为 OP / x* 找 公 共 
子 表达 式 * / ,车 有 则 返回 序号 , 若 没 有 则 建立 该 结 点 并 返回 序号 )} ; 
2 型 : 查 元 表 中 有 无 结 点 node(C), 若 没有 则 建立 并 返回 该 结 点 序号 , 若 有 
则 返回 结 点 序号 ; 
IF(node (B). 标记 = 常量 ) AND (node (C). 标记 = 常量 ) THEN 
{执行 B OP C 操作 ,并 得 值 P。 若 node (B) 或 node(C) 是 当前 四 
元 式 建立 的 则 删除 。 查 有 无 node (P) ,没有 则 建立 并 返回 序号 ， 
有 仅 返 回 序号 } 
ELSE { 查 结 点 是 否 有 一 结 点 ,其 左 后 继 为 node (B) , 右 后 继 为 node (CO)， 
标记 为 OP。 若 没有 则 建立 并 返回 序号 , 若 有 仅 返 回 序号 }， 

END OF CASE; 

IF 元 表 中 无 node (A) 结 点 THEN 

{把 A 附加 在 当前 结 点 上 且 填 元 表 node(A) :=n/* A 作为 当前 结 点 n 的 附 
标 */} 

ELSE (从 node(A) 结 点 表 的 附 标 中 删 去 A( 作 为 叶 结 点 标记 的 A 不 删除 ) ,然后 将 
A 附加 在 当前 结 点 上 且 修 改元 表 node(A):=n( 这 里 node(A) 不 再 指向 作 
为 叶 结 点 的 A 上 )} 

END; 

END; 
在 本 算法 中 ,建立 结 点 是 指 填写 结 点 表 和 元 表 ; 删 除 结 点 是 指 从 结 点 表 和 元 表 中 删 去 相 


应 项 。 
例 : 试 构造 图 9. 2 中 四 元 式 程序 段 的 DAG。 这 里 重 写 图 9. 2 的 四 元 式 序列 如 下 (将 Pi 改 
为 用 Te 表示 ): 
G: (1) To :=3.14 
(2) Ti :一 2* To 


(3) Ta: :一 R 十 r 
(4) A:=T, *T, 
(5) B:=A 

(6) Ts:=2x* To 
(7) Ti : 王 R 十 r 
(8) Ts :一 Ta x T 
(9) Te :一 人 一 上 


(10) B: 王 Ts * Te 


依照 算法 基本 块 内 的 四 元 式 可 填写 元 表 与 结 点 表 如 图 9. 14 所 示 。 


图 9.14 基本 块 G 的 元 表 与 结 点 表 


画 成 相应 的 DAG 图 如 图 9. 15(a) 所 示 。 


9.15(a) 9.2 中 四 元 式 序列 的 DAG 


9.2.3 DAG 在 基本 块 优 化 中 的 作用 


根据 DAG 构造 算法 可 看 到 DAG 图 能 做 到 如 下 三 种 优化 : 

(1) 对 任何 一 个 四 元 式 , 如 果 其 中 参与 运算 的 对 象 都 是 编译 时 的 已 知 量 ,那么 合并 已 知 
量 , 并 用 合并 后 算出 的 常量 生成 一 个 叶 结 点 。 若 参与 运算 的 已 知 量 的 叶 结 点 是 当前 四 元 式 建 
立 的 结 点 , 则 可 删 掉 。 

(2) 如 果 某 变量 被 赋值 之 后 ,随即 又 被 重新 赋值 ,那么 算法 具有 删除 对 变量 的 前 一 个 赋值 
的 功能 ( 即 删除 该 变量 的 前 一 个 附 标 ) 。 

(3) 算法 还 具有 检查 公共 子 表达 式 的 作用 ,对 具有 公共 子 表达 式 的 所 有 四 元 式 , 它 只 产生 
一 个 计算 该 表达 式 值 的 内 部 结 点 ,而 把 那些 被 赋值 的 变量 附加 到 该 结 点 上 。 

利用 DAG 图 可 以 还 原 成 四 元 式 序列 。 下 面 给 出 还 原 成 四 元 式 的 方法 ,依照 结 点 表 中 的 
序号 顺序 执行 : 

(1) 若 为 叶 结 点 ,无 附 标 , 则 不 生成 四 元 式 ; 
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(2) 若 为 叶 结 点 ,标记 为 B, 附 标 为 A, 则 生成 四 元 式 A:=B; 
(3) 若 为 中 间 结 点 ,有 附 标 , 则 根据 其 标记 op 相应 生成 : 
A:=BopC A:=op B A: 二 BLC] 或 if B rop C goto(s) 

(4) 若 为 中 间 结 点 ,无 附 标 , 则 为 此 结 点 添加 一 个 局 部 于 基本 块 的 临时 附 标 SA ,然后 转 步 
又 (3) 生 成 相应 的 四 元 式 ; 

(5) 若 结 点 有 多 个 附 标 Ai ,A: ,… ,Au, 则 分 两 种 情况 考虑 : 

@ 若 结 点 是 叶 结 点 ,标记 为 B, 则 生成 A :=B,A: : 王 B,…',Au: 一 B; 

@ 若 结 点 为 内 部 结 点 , 则 除 第 一 附 标 A 外 ,其 他 附 标 生 成 A::=Al,As:=A,…， 
A,:=Al。 

根据 上 述 方式 把 图 9.15(a) 的 DAG 重新 写成 四 元 式 , 则 可 得 到 以 下 四 元 式 序列 G'; 


(1) To 一 3.14 
(2) Ti :一 6.28 
(3) Ts: :一 6.28 
(4) Ts 一 及 十 
(5) Tris= Ts 

(6) A:=6.28*x T, 
(7) Ti :一 A 

(8) Te 一 人 一 上 
(9) B: 王 Ax Te 


把 G' 和 原 基 本 块 G 相 比较 ,可 看 到 :G 中 四 元 式 (2) 和 (6) 都 是 已 知 量 的 运算 ,G' 已 合并 ; 
G 中 四 元 式 (5) 是 9. 2. 1 节 所 指出 的 第 二 种 情况 的 无 用 赋值 ,G' 已 把 它 删 除 ;G 中 四 元 式 (3) 和 
(7) 的 R+r 是 公共 子 表达 式 ,G' 只 对 它们 计算 一 次 ,删除 了 多 余 的 R+r 运 算 。 所 以 ,G' 是 对 
G 实现 上 述 三 种 优化 的 结果 。 

除了 应 用 DAG 进行 上 述 的 优化 外 ,还 可 从 基本 块 的 DAG 中 得 到 一 些 其 他 的 优化 信息 。 
这 些 信息 是 :在 基本 块 外 被 定 值 并 在 基本 块 内 被 引用 的 所 有 标识 符 ,就 是 作为 叶 结 点 标记 的 那 
些 标 识 符 ; 在 基本 块 内 被 定 值 且 该 值 能 在 基本 块 后 面 被 引用 的 所 有 标识 符 , 就 是 DAG 各 结 点 
上 的 那些 附 标 。 

利用 上 述 这 些 信息 , 还 可 进一步 删除 四 元 式 序列 中 其 他 情况 的 无 用 赋值 ,但 这 时 必须 涉及 
有 关 变 量 在 基本 块 后面 被 引用 的 情况 。 例 如 ,如 果 DAG 中 某 结 点 上 附加 的 标识 符 在 该 基本 
块 后 面 不 会 被 引用 ,那么 就 不 生成 对 该 标识 符 赋 值 的 四 元 式 。 又 如 ,如 果 某 结 点 上 不 附 有 任何 
标识 符 或 者 其 上 附加 的 标识 符 在 基本 块 后 面 不 会 被 引用 ,而且 它 也 没有 父 结 点 ,这 就 意味 着 基 
本 块 内 和 基本 块 后 面 都 不 会 引用 该 结 点 的 值 ,那么 就 不 生成 计算 该 结 点 的 值 的 四 元 式 。 这 样 ， 
就 删除 了 9. 2. 1 节 中 所 指出 的 第 一 种 和 第 三 种 情况 的 无 用 赋值 ,不 仅 如 此 ,如 果 有 两 个 相 邻 的 
四 元 式 “A:=C op D”" 和 “B: 二 A”, 其 中 第 一 个 四 元 式 计算 出 来 的 A 值 只 在 第 二 个 四 元 式 中 被 
引用 , 则 把 相应 结 点 重 写成 四 元 式 时 ,原来 的 两 个 四 元 式 将 变换 成 “B: 二 C op D”。 

现在 假设 前 例 中 T, ,Ti ,Ts ,Ts ,Ts,T; 和 Ts 在 基本 块 后面 都 不 会 被 引用 ,于 是 图 9. 15(a) 中 
DAG 就 可 重 写 为 如 下 四 元 式 序列 : 
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(1) Si1:=R+r 

(2) A:=6.28*S, 

3 及 一 

(4) B: 一 AxSs 
其 中 ,没有 生成 对 Tu 一 Ts 赋值 的 四 元 式 ,S, 和 Ss, 是 用 来 存放 中 间 结 
果 值 的 临时 变量 ,由 该 序列 可 见 , 它 比 图 9. 3 优化 得 更 彻底 。 夯 成 
DAG 见 图 9.15(b) 。 

以 上 把 DAG 重 写成 四 元 式 时 ,是 按照 原来 构造 DAG 结 点 的 顺 
序 ( 即 ns ,ne ,nr ,ns ) 依 次 进行 的 。 实 际 上 ,还 可 采用 其 他 顺序 ,只 要 遵 
守 任 一 内 部 结 点 在 其 子 结 点 之 后 被 重 写 并 且 转 移 语 名 (如果 有 的 话 ) 
仍然 是 基本 块 的 最 后 一 个 语句 即 可 。 这 里 值得 指出 的 是 ,可 按照 ny ， 


ns ,ne 和 ns 的 顺序 把 DAG 重 写 为 如 下 四 元 式 序列 ， 9.15(b) 图 9.2 中 
(1) S :一 R 一 r 四 元 式 序列 的 DAG 图 
(2) S :一 R 十 r 
(3) A:=6.28*S, 
(4) B:=Ax*xS, 


第 10 章 介绍 目标 代码 生成 时 将 会 看 到 ,按照 后 一 顺序 重 写 出 的 四 元 式 序列 ( 即 所 谓 启 发 
式 排序 ) 所 生成 的 目标 代码 要 比 前 者 好 。 那 时 还 要 介绍 如 何 重 排 DAG 的 结 点 顺序 ,使 得 重 写 
出 的 四 元 式 序列 能 生成 更 有 效 的 目标 代码 。 


9.2.4 DAG 构造 算法 讨论 


1) 结 点 或 标识 符 的 注销 

基本 块 内 某 些 结 点 的 值 可 能 被 隐 式 赋值 所 改变 。 在 9. 2. 2 节 的 DAG 构造 算法 中 ,没有 
考虑 对 数组 元 素 的 赋值 ,间接 赋值 以 及 两 个 或 两 个 以 上 变量 共享 同一 单元 (如 等 价 变量 .公用 
变量 ) 等 隐 式 赋值 情况 。 如 果 出 现 这 些 隐 式 赋值 ,DAG 构造 算法 该 如 何 修 改 ? 

我 们 认为 , 若 出 现 上 述 这 些 隐 式 赋 值 , 与 这 些 赋值 有 关 的 变量 的 结 点 将 不 再 被 选 作 公共 子 
表达 式 使 用 ,不 能 在 这 些 结 点 上 增加 附 标 ,也 就 是 说 这 些 结 点 被 注销 了 。 所 谓 注销 意味 着 该 结 点 
不 能 再 附加 标识 符 或 者 不 能 再 被 引用 ,而 原来 在 该 结 点 上 的 附 标 与 对 该 结 点 的 引用 仍然 有 效 。 

(1) 对 数组 元 素 的 赋值 。 

例 :考察 源 程序 段 ; 


(1) X:=A[i] 
(2) B: 一 X 十 2 
(3) A[j]:=Y 
(4) Z:=AL[Li] 


执行 此 语句 序列 后 ,X= 二 Z? 回答 是 :车 i 二 j 且 Y 关 (1) 式 中 的 A[i 则 X 隆 Z, 否 则 X=Z。 

但 在 DAG 构造 算法 中 并 没有 考察 下 标 值 与 下 标 变 量 值 ,只 能 从 最 坏 情况 考虑 ,认为 X 隆 Z, 即 

X 与 Z 不 能 作为 同一 结 点 上 的 附 标 ,而 应 为 Z 重 新 构造 一 个 结 点 。 其 具体 构造 DAG 的 过 程 
如 下 : 
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由 源 程 序 段 生成 的 四 元 式 序列 是 : 
(1) Si :一 addr(A) 一 1 /x*addr(A) 为 数组 A 的 内 存 首 地 址 * / 


(2) X:=S[] 
(3) B;=X+2 
(4) Ss:=addr(A)—1 
(5) SL[j]:=Y 
(6) Ss:=addr(A)—1 
(7) 2:=S;[i] 


其 中 (5) 式 是 对 数组 元 素 A[j] 赋 值 , 它 可 能 改变 数组 元 素 A[ 让 的 值 ,所 以 (2) 式 结 点 上 不 能 再 
增加 附 标 ( 即 它 已 被 注销 ) , 画 出 的 DAG 如 图 9. 16 所 示 。 


2 addr(A) 
图 9.16 对 数组 隐 式 赋值 的 DAG 


具体 构造 DAG 算法 中 凡 遇 到 对 数组 元 素 赋值 的 四 元 式 ( 如 (5) 式 ) 时 ,可 把 与 该 数组 首 地 
址 (addr(A)) 相 关 的 祖先 结 点 标记 为 “=[ ]" 者 都 予以 注销 ( 即 做 一 个 记号 ), 上 图 由 虚线 箭 
头 指 向 的 结 点 ns 就 是 被 注销 结 点 。 这 就 意味 着 ns 结 点 再 也 不 能 加 附 标 也 不 再 被 引用 ,而 原 
先 它 作为 node(B) (ni) 结 点 的 子 结 点 仍 有 效 。 这 样 ,(7) 式 对 变量 Z 的 赋值 不 能 在 ns 结 点 上 
加 附 标 , 要 重新 构造 结 点 nn 。 
由 图 9. 16 的 DAG 还 原 成 四 元 式 序列 如 下 : 
(1) S :一 addr(A) 一 1 


(2) Se :一 Si 
(3) S :一 Si 
(4) X:=S[i] 
(5) B;=2 二 TX 
(6) SLj]:=Y 
(7) Z:=S[i] 


其 中 (2)、(3) 式 为 无 用 赋值 可 以 删除 。 
(2) 共享 单元 的 隐 式 赋值 。 
设 X,Y 是 等 价 变量 (处 于 同一 等 价 片 中 ) , 当 对 X 赋值 时 也 改变 了 YY 的 值 ,于 是 Y 不 再 等 
于 Y 立 结 点 的 原先 值 。 因 此 ,nodeCY) 应 予以 注销 。 被 注销 的 结 点 不 再 被 引用 , 若 要 引用 应 重新 
构造 一 个 以 它 为 标记 的 叶 结 点 。 
例 : 设 1,J 是 等 价 变量 ,车 有 四 元 式 程序 段 如 下 : 
A:=B—C 
J:=A+D 
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LI:=A*2 
C;=]/2 
那么 构造 出 的 DAG 图 如 图 9. 17 所 示 , 当 构造 nm 结 点 后 便 注销 ns 结 点 。 若 还 原 成 四 元 
式 仍 如 原 程序 段 序 列 。 


addr(A) 1 
9.17 共享 单元 隐 式 赋值 的 DAG 图 9.18 间接 单元 赋值 的 DAG 


(3) 间接 赋值 。 
P+ :一双 ,其 中 P 是 指向 某 变量 的 地 址 ,该 语句 是 用 来 修改 某 变 量 的 内 容 , 若 P 不 知 指向 
哪 一 个 变量 (因为 在 DAG 图 构造 时 并 没有 查阅 了 的 值 ) ,那么 此 赋值 将 注销 所 有 标识 符 ( 包 括 
叶 结 点 上 的 标识 符 ) ,只 留 下 常量 结 点 。 把 DAG 中 所 有 结 点 上 的 标识 符 都 注销 ,意味 着 DAG 
中 所 有 结 点 都 被 注销 。 
例 : 有 一 程序 段 : 
ALIT:=B 
Ps=C 
D:=A[]J] 
其 中 了 P 可 能 指向 任 一 变量 ,构造 出 的 DAG 如 图 9. 18 所 示 ,其 中 虚线 框 内 结 点 全 被 注销 ,因此 
在 求 变 量 不 变 地 址 A( 二 addr(A) 一 1) 时 ,还 得 构造 一 结 点 ns 。 
2) 重 写 四 元 式 要 遵守 的 顺序 
当 存 在 隐 式 赋值 时 , 隐 式 赋值 是 个 界线 ,与 隐 式 赋值 相关 的 标识 符 在 界线 前 的 赋值 和 引用 
以 及 与 界线 后 的 赋值 和 引用 顺序 不 能 对 调 ,也 就 是 说 对 任何 变量 的 引用 或 赋值 都 必须 跟 在 原 
位 于 其 前 与 其 相关 的 隐 式 赋值 之 后 ;对 任何 隐 式 赋值 必须 跟 在 原 位 于 其 前 与 其 相关 的 变量 引 
用 之 后 。 


9.3 控制 流程 分 析 和 循环 查找 算法 


从 9.1.2 节 的 讨论 知道 循环 优化 的 效率 是 很 高 的 ,进行 代码 优化 时 应 着 重 考虑 循环 内 的 
代码 优化 ,这 对 提高 目标 代码 的 运行 效率 将 起 更 大 作用 。 为 了 进行 循环 优化 ,首先 要 找 出 程序 
中 的 循环 。 由 程序 语言 的 循环 语句 (如 FORTRAN 的 DO 语句 ,Pascal 的 FOR 语句 等 ) 形 成 
的 循环 是 不 难 找 出 的 ,然而 程序 中 的 循环 还 不 仅 来 自 它们 , 像 FORTRAN 和 Pascal 等 语言 中 
的 条 件 转移 语句 和 无 条 件 转移 语句 ,同样 可 以 形成 程序 中 的 循环 ,上 且 其 结构 可 能 更 复杂 。 为 了 
找 出 程序 中 的 循环 ,需要 对 程序 中 的 数据 流程 进行 分 析 。 控 制 流程 分 析 , 也 是 进行 程序 中 的 数 
据 流程 分 析 的 基础 ,它们 都 是 进行 优化 所 需要 的 基础 和 工具 。 本 节 要 应 用 程序 的 控制 流程 图 
对 我 们 所 要 讨论 的 循环 给 出 定义 ,并 介绍 怎样 从 程序 的 控制 流程 图 中 找 出 程序 中 的 循环 。 
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9. 3.1 程序 流 图 与 必 经 结 点 集 
定义 :以 基本 块 作为 结 点 ,控制 程序 流向 作为 有 向 弧 , 画 ® 

出 的 图 称 程序 流 图 。 流 图 是 具有 唯一 首 结 点 的 有 向 图 。 所 

谓 首 结 点 是 指 包含 程序 第 一 个 语句 的 基本 块 。 (8) 
例如 可 构造 图 9.9 的 程序 流 图 ,如 图 9.19 所 示 。 
从 首 结 点 出 发 沿 着 流 图 可 以 到 达 任 何 结 点 。 罗 (B,) 


定义 : 若 从 首 结 点 出 发 到 达 mi 的 各 条 通路 都 必须 经 过 结 


点 nm, 称 mi 为 mi 的 必 经 结 点 , 记 作 n; dom ni(dom 是 domi- 


9. 19 9.9 的 程序 流 图 


nate 的 缩写 ) 。nmi 的 全 部 必 经 结 点 的 集合 称 作 mi 的 必 经 结 点 集 , 记 作 DCni) 。 
设 有 如 图 9. 20 所 示 的 流 图 ,各 个 结 点 的 必 有 经 结 点 集 如 下 : 
D(D)={1} 


Li} 
,2,3} 
,2,4} 
,2,4,5} 
,2,4,6} 


D(7)={1,2,4,7} 


下 面 讨论 
Ps ys ,Px , 则 


求 必 经 结 点 集 的 算法 。 设 结 点 n 的 父 结 点 是 Pi， 


DW=, NN D(Pi) Ut{n); 其 中 Pi 是 n 的 父 结 点 。 
和 Ly 


具体 实现 时 使 用 了 和 迭代 算法 ,这 是 数据 流 分 析 常 用 的 一 种 
方法 。 它 比较 两 次 迭代 结果 ,如 果 两 次 结果 相同 , 则 迭代 结束 。 


设 全 部 结 点 集合 为 N, 首 结 点 为 n ,算法 如 下 : 
PROCEDURE Dominators 


《3 
(2) 
(3) 
(4) 


(5) 
(6) 


(7) 
(8) 


() 
(2) 
(I 7O 
四 
下 面 给 出 具体 算法 。 cso 
四 


BEGIN 图 9.20 程序 流 图 
DCno) 一 {no}; 
FOR n€EN 一 {m) DO DCn):=N;/* 置 初 值 * / 
CHANGE.:=TRUE; 


WHILE CHANGE DO /* 完成 若干 次 只 代 * / 
BEGIN 
CHANGE: =FALSE:; 
FOR n€EN—{m} DO /完成 一 次 兴 代 x / 
BEGIN 


NEWD:={n} U NDCOP); 
PEPCn) 
IF DCn) 和 关 NEWD THEN 


(9) CHANGE:=TRUE; 
(10) D(n):=NEWD 
END 
END 
END 
此 算法 的 缺点 是 没有 规定 计算 结 点 的 顺序 ,车 顺序 选 得 不 好 ,可 能 造成 效率 很 低 。 辟 如， 
图 9. 20 所 示 的 流 图 , 若 按 7,6,5,4,3,2 的 顺序 计算 dom, 第 一 次 欠 代 : 
D(7)={7}UD(6) NDGS)={1,2,3,.…,7}=N 
DC(6)={6}UD(4)={6}U{1,2,3,.…,7}=N 


DC(2)={2}UD()={2}U{1}={1,2} 
第 二 次 迭代， 


DC(3)={3}UD(2)={3} U1{1,2)={1,2,3} 
则 需 7 次 迭代 才能 计算 完成 。 
车 按 2,3,4,5,6,7 的 顺序 计算 dom, 只 需 两 次 迭代 ,第 一 次 计算 各 结 点 的 dom, 第 二 次 计 
算 的 结果 与 第 一 次 相同 ,算法 结束 。 
可 见 将 流 图 中 各 结 点 排 个 序 很 重要 。 这 个 序 称 作 深度 为 主 排序 。 


9.3.2 深度 为 主 排序 
深度 为 主 排序 的 算法 是 对 给 定 流 图 ,从 首 结 点 出 发 沿 着 某 条 路 径 


尽量 前 进 ,直至 访问 不 到 新 结 点 时 才 退 回 到 其 前 驱 结 点 。 然 后 再 由 前 (WW 
驱 结 点 沿 着 另 一 通路 (如 果 存 在 的 话 ) 尽 量 前 进 , 直 到 又 访问 不 到 新 结 人) 
点 时 才 再 退回 到 其 前 驱 结 点 ,此 过 程 一 直 进行 到 退回 到 首 结 点 且 再 也 (I © 
访问 不 到 新 结 点 为 止 。 我 们 把 这 种 尽量 往 通路 深 处 访问 新 结 点 的 过 (4) 


经 过 结 点 序列 的 逆序 依次 给 各 结 点 排 上 一 个 次 序 , 则 称 这 个 次 序 为 结 

点 的 深度 为 主 次 序 。 (7?) 
图 9. 16 的 流 图 重 画 如 右 图 所 示 , 求 它 的 深度 为 主 次 序 。 因 为 算 

法 并 没 规定 按 什么 路 径 查 找 , 所 以 按 不 同 路 径 查找 可 能 获得 不 同 的 排序 结果 。 下 面 任 举 两 个 
(1) 深度 为 主 查找 :1] 2 4 6 7 6 4 5 4 2 3 2 1 


程 称 为 深度 为 主 查找 (类 似 于 前 序 遍 历 )。 如 果 按 深度 为 主 查找 中 所 os 


深度 为 主 排序 : O @ OO@ QQ@oO0 
(2) 深度 为 主 查找 :1] 2 3 4 5 7 5 4 6 4 3 2 1 
深度 为 主 排序 : OO OOoOO 


第 一 种 搜索 路 径 获 得 的 排序 结果 与 结 点 序号 相同 ,这 仅仅 是 一 种 巧合 ;第 二 种 搜索 路 径 获 得 的 
排序 结果 与 结 点 序号 略 有 不 同 , 但 两 种 都 是 深度 为 主 排序 ,随便 用 哪 一 种 排序 来 计算 必 经 结 点 
集 都 能 获得 较 佳 结果 。 
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9.3.3 查找 循环 算法 


下 面 要 应 用 必 有 经 结 点 集 来 求 出 流 图 中 的 回 边 , 利 用 回 边 来 找 出 流 图 中 的 循环 。 首 先 给 出 
回 边 的 定义 。 

定义 : 设 a>b 是 流 图 中 一 条 有 向 边 , 若 b dom a, 则 称 a>b 是 流 图 中 的 一 条 回 边 。 

例 : 求 出 图 9. 20 所 示 流 图 的 所 有 回 边 。 

解 :根据 9. 3. 1 节 对 图 9. 20 求 必 经 结 点 集 的 结果 :D(6) 王 (1,2,4,6},D(7) 王 (1,2,4,7}， 
D(4)= 二 {1,2,4), 有 :6 dom 6,4 dom 7 和 2 dom 4。 按 定义 6 一 6,7 一 4,4~2 都 是 流 图 的 回 边 ， 
而 其 他 有 向 边 都 不 是 回 边 。 

再 看 如 下 流 图 。2 不 是 3 的 必 经 结 点 ,所 以 3 一 2 不 是 回 边 ;3 也 不 是 2 的 必 经 结 点 , 故 2 一 
3 也 不 是 回 边 , 所 以 这 个 流 图 没有 回 边 。 

每 一 条 回 边 构 成 一 个 循环 (可 能 两 条 不 同 回 边 构成 相同 循环 )。 设 
nd 是 回 边 , 则 该 回 边 构 成 的 循环 包括 下 列 结 点 :n,d 以 及 不 经 过 d 能 
到 达 n 的 所 有 结 点 。 仍 以 图 9. 20 为 例 求 出 各 回 边 对 应 的 循环 结 点 : 

回 边 4 一 2 循环 ={4,2,3,7,5,6} 
回 边 7 一 4 循环 ={7,4,5,6} 
回 边 6 一 6 循环 = 二 {6} 

查找 循环 的 算法 : 

(1) 找 出 回 边 n>d; 

(2) 则 n,d 必定 属于 n>d 回 边 组 成 的 循环 工 中 , 即 L:=={n,d); 

(3) 车 n 隆 d 且 n 的 父 结 点 n' 不 在 工 中 , 则 将 它 添 入 工 中 , 即 LL:=LU{n'); 

(4) 对 步骤 (3) 求 出 的 父 结 点 n 重复 执行 步 又 (3) ,直至 不 再 有 新 结 点 加 入 工 为 止 。 

定理 ;对 于 循环 必定 满足 强 连 通 , 而 且 有 了 唯一 入 口 点 。 

所 谓 强 连通 是 指 循环 中 任意 两 个 结 点 间 都 有 通路 , 单 结 点 循环 有 一 弧 指 向 自身 。 强 连通 
保证 了 循环 内 各 结 点 的 代码 都 可 反复 执行 。 唯 一 人口 点 是 指 要 到 达 循 环 内 任意 结 点 必须 经 过 
这 个 人口 点 。 比 如 nd 是 回 边 , 则 d 是 唯一 入 口 点 。 唯 一 入 口 点 保证 了 循环 优化 时 ,将 代码 
外 提 到 唯一 入 口 点 前 的 前 置 结 点 中 。 


9.4 数据 流 分 析 


从 9.1 节 的 介绍 可 知 ,为 进行 局 部 优化 、 循 环 优 化 和 全 局 优化 ,需要 分 析 程 序 中 所 有 变量 
的 定 值 ( 指 对 变量 的 赋值 或 输入 值 ) 和 引用 之 间 的 关系 、 基 本 块 出 口 的 活跃 变量 信息 等 。 这 就 
要 求 对 整个 程序 进行 全 局 数据 流 分 析 。 这 一 节 我 们 要 介绍 两 个 数据 流 的 分 析 , 先 介绍 变量 到 
达 - 定 值 数 据 流 方程 和 变量 引用 - 定 值 链 , 然 后 介绍 活跃 变量 数据 流 方程 , 求 得 各 基本 块 出 口 处 
活跃 变量 集 。 
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9.4.1 到 达 - 定 值 数 据 流 方程 

在 介绍 数据 流 方程 及 其 解 之 前 , 先 介绍 四 个 有 关 名 词 的 概念 : 

(1) 点 : 指 程序 中 某 一 四 元 式 的 位 置 (序号 或 地 址 ); 

(2) 定 值 点 :对 某 变 量 赋值 或 输入 值 的 四 元 式 的 位 置 ; 

(3) 引用 点 :引用 某 变量 的 四 元 式 位 置 ; 

(4) 变量 A 的 到 达 与 定 值 : 若 d 点 是 变量 A 的 一 个 定 值 点 ,u 点 是 A 的 一 个 引用 点 ,存在 
一 条 从 d 到 u 的 通路 , 且 在 此 通路 上 没有 对 A 的 其 他 定 值 点 , 则 称 d 点 对 A 的 定 值 能 达到 u 
点 。 假 定 在 程序 中 某 点 u 引用 了 变量 A, 则 把 能 到 达 u 的 A 的 所 有 定 值 点 的 全 体 称 为 A 在 引 
用 点 u 的 引用 - 定 值 链 (简称 ud 链 ) 。 

为 了 求 得 到 达 基 本 块 B 中 点 了 的 各 个 变量 的 定 值 点 集合 ,首先 必须 求 得 能 到 达 基 本 块 B 
人 入口 点 的 各 个 变量 的 定 值 点 集合 ,用 INLB] 表 示 。 这 样 , 在 求 到 达 基 本 块 B 中 某 点 了 的 变量 A 
的 定 值 点 集合 时 ,可 用 下 述 方法 求 得 : 

(1) 如 果 B 中 了 的 前 面 有 A 的 定 值 点 , 则 到 达 P 的 A 的 定 值 点 是 唯一 的 , 它 就 是 与 P 最 
靠近 的 那个 A 的 定 值 点 ; 

(2) 如 果 B 中 了 的 前 面 没有 A 的 定 值 点 , 则 到 达 P 的 A 的 所 有 定 值 点 就 是 INLB] 中 关于 
A 的 那些 定 值 点 。 

若 要求 INLB] ,需要 求解 到 达 - 定 值 数据 流 方程 。 下 面 先 引进 与 方程 有 关 的 另外 三 个 定 值 
点 集合 : 

(1) OUT[B]j: 能 到 达 基 本 块 B 出 口 点 的 各 变量 的 全 部 定 值 点 集合 ; 

(2) GENLB]: 基 本 块 B 中 定 值 并 能 到 达 B 出 口 点 的 所 有 定 值 点 集合 ; 

(3) KILL[B]: 因 B 中 定 值 而 注销 的 所 有 与 它 相 关 的 变量 的 定 值 点 集合 。 

对 于 任何 一 个 基本 块 ,这 四 个 集合 显然 存在 下 面 的 关系 : 

OUT[BJ]=IN[B]—KILL[B]UGEN[B] 
(esi Wourtl 

其 中 ,PLB] 代 表 B 的 所 有 前 驱 基 本 块 集合 。 由 于 所 有 KILL[LB] 和 GENLBJ] 可 从 给 定 的 流 
图 中 直接 求 出 ,所 以 (9. 1) 式 是 变量 INLB] 和 OUTLB] 的 线性 联 立 方程 组 , 称 之 为 到 达 - 定 值 数 
据 流 方程 。 

流 图 中 若 有 n 个 基本 块 , 则 此 方程 共有 2n 个 。 其 中 GENLB] 就 是 基本 块 内 DAG 图 上 的 
附 标 , 由 这 些 附 标 可 查 得 定 值 点 的 集合 ;KILLIB] 指 若 Ai; 在 本 块 内 定 值 , 就 将 所 有 Ai 定 值 点 
( 除 本 定 值 点 外 ) 都 注销 。 由 于 GEN[B] 和 KILLLB] 为 已 知 量 ,所 以 可 求 得 INLB] 与 OUT 
LB]。 

我 们 采用 和 迭代 方法 求解 此 联 立 方程 组 。 比 较 形 式 化 的 算法 如 下 : 

PROCEDURE Reading-Definitions 
BEGIN 
(1) FOR i:=1 TO n DO 
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C9..1) 


(10) 
C11 
(12) 


BEGIN IN[B] := 多; 
OUT[B;]:=GENLB;] /* 对 n 个 基本 块 置 初 值 */ 
END; 
CHANGE:=TRUE; /* 循环 控制 标志 初 值 置 为 真 x/ 
WHILE CHANGE DO 
BEGIN 
CHANGE.: =FALSE; 
FOR i:=1 TOn DO /* 对 于 每 个 基本 块 都 做 一 遍 * / 
BEGIN 
NEWIN:= wea OU TIP]; 
IF NEWIN 夫 INLB,] THEN 
BEGIN 
CHANGE:=TURE:; 
IN[B;]:=NEWIN; 
OUT[B;]:=IN[B;]— KILL[B;]UGENL[LB;] 
END 
END 
END 
END 


其 中 第 (7) 一 (12) 行 是 迭代 计算 ,对 于 这 n 个 基本 块 究竟 取 什 么 顺序 计算 呢 ? 我 们 说 , 按 
深度 为 主 排序 的 正 序 计算 ,其 迭代 的 收敛 比较 快 。 

考察 图 9. 21 的 流 图 。 各 四 元 式 左边 的 d 分 别 代表 该 四 元 式 的 位 置 。 为 了 简化 数据 结构 ， 
使 用 n 位 (Cn 为 四 元 式 条 数 ) 向 量 表示 四 元 式 位 置 。 根 据 流 图 ,首先 求 出 每 一 块 的 GEN[B;] 和 
KILLLBi] ,如 表 9. 1 所 示 。 


图 9. 21 


表 9.1 列 出 GEN 与 KILL 
GENLB] | 位 向 量 KILLLB] 位 向 量 
{disdzs} | 1100000 | {ds,di,ds} | 0011100 


0010000 {di} 1000000 


{ds} 0001000 {dz ,ds} 0100100 


{ds} 0000100 | {dzwdis} | 0101000 


丰 -二 0000000 6 0000000 


按 深 度 为 主 次 序 求 得 Bi , Bs. Bs ,Bs ,Bs;。 按 迭代 算法 执行 
迭代 过 程 如 下 : 


初 值 :IN[LBi]=INLB,]==…=IN[LB;] 二 0000000 
OUT[B, ]=1100000,O0UT[B, |]=0010000,… ,OUTL[B; ]= 
0000000 
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第 一 次 迭代 结果 : 


IN[B:] OUT[B'] 
Bi 0010000 1100000 
B; 1100000 0110000 
B; 0110000 0011000 
B, 0011000 0010100 
了 Bs 0011100 0011100 


第 二 至 第 四 次 迭代 结果 如 下 表 所 示 。 


第 二 次 迭代 第 三 次 迭代 第 四 次 迭代 


INLB] OUTLB] IN[LB] OUTLB] INLB] OUTLB] 


0110000 1100000 0111100 1100000 0111100 1100000 


1111100 0111100 1111100 0111100 1111100 0111100 


0111100 0011000 0111100 0011000 0111100 0011000 


0011000 0010100 0011000 0010100 0011000 0010100 


0011100 0011100 0011100 0011100 0011100 0011100 


由 上 表 可 知 第 四 次 迭代 结果 与 第 三 次 迭代 结果 相同 ,迭代 结束 ,它们 就 是 所 求 结果 值 。 


9.4.2 引用 - 定 值 链 (ud 链 ) 


到 达 基 本 块 内 某 点 u 的 变量 A 的 定 值 点 集合 称 变量 A 在 u 点 的 ud 链 。 它 的 构成 规 
则 是 : 

(1) 在 基本 块 B 中 ,变量 A 在 引用 点 u 前 有 定 值 点 d, 并 且 d 点 的 定 值 能 到 达 u, 那 么 A 
在 u 点 的 ud 链 ={d); 

(2) 如 在 基本 块 B 中 ,在 u 点 之 前 没有 对 A 的 定 值 点 , 则 变量 A 在 u 点 的 ud 链 ={INLB] 
中 有 关 A 的 集合 } 。 

这 里 的 “ 链 ” 是 指 将 集合 中 各 定 值 点 连 在 一 起 构成 链 , 以 便于 检索 。 

例如 ,在 图 9.21 的 B 中 ,J 的 引用 点 在 ds. 则 有 关 J 的 定 值 点 ud 链 ={d,};Bs 中 J 的 引 
用 点 在 di , 则 有 关 J 的 定 值 点 ud 链 = {ds ,ds)*…… 


9.4.3 活跃 变量 及 数据 流 方程 
什么 叫 活跃 变量 (Live Variable)? 
程序 中 某 变 量 A 和 某 点 了 ,存在 一 条 从 P 开始 的 路 径 ,在 该 路 径 上 A 在 定 值 前 被 引用 或 
仅 有 引用 , 则 称 A 在 P 点 是 活路 的 变量 。 
对 基本 块 而 言 , 若 能 求 得 哪些 变量 在 出 口 点 是 活跃 的 ,哪些 是 不 活跃 的 ,那么 它 将 为 块 内 
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优化 提供 很 有 用 的 信息 。 如 ,在 DAG 中 那些 基本 块 出 口 为 不 活跃 的 变量 的 附 标 可 删除 ,在 循 
环 优化 中 也 为 循环 代码 外 提 提 供 有 用 信息 等 。 
要 求 基本 块 出 口 点 活跃 变量 集 L， OUT[B], 需 要 先 列 出 活跃 变量 数据 流 方程 。 下 面 先 
列 出 几 个 与 活跃 变量 数据 流 方程 有 关 的 集合 : 
(1) L。IN[Bj: 块 B 入 口 点 活跃 变量 集合 ; 
(2) L。OUT[B]: 块 B 出口 点 活跃 变量 集合 ; 
(3) L， USELB]: 块 B 中 引用 的 ,但 引用 前 未 曾 在 B 中 定 值 的 变量 集 ( 即 DAG 中 叶 结 点 
的 标识 符 ); 
(4) L。DEF[LB]: 基 本 块 B 内 定 值 的 ,但 在 定 值 前 未 曾 在 B 中 引用 过 的 变量 集 。 
显然 ,L。USELB] 和 LL。DEFLB] 在 各 基本 块 内 可 直接 求 得 。 这 四 个 集合 存在 如 下 关系 : 
L。IN[LB]=L .OUT[B] 一 L.。 DEF[B]UL. USE[B] 
L， OUT[B]= YL “IN[S] 
其 中 SLB] 代 表 B 的 后 继 基本 块 集合 。 所 以 式 (9. 2) 是 变量 L。INLB] 和 L .OUTLB] 的 线性 
联 立方 程 组 , 称 之 为 活跃 变量 数据 流 方 程 。 假 定数 据 流 有 n 个 基本 块 , 则 此 方程 有 2n 个。 
活跃 变量 数据 流 方 程 的 求解 算法 仍然 采用 迭代 算法 。 由 式 (9.2) 可 知 , 它 采用 深度 为 主 排 
序 的 逆序 计算 ,算法 收敛 比较 快 。 算 法 如 下 : 
PROCEDURE Live-Variables 
BEGIN 
FOR i:=1 TOn DO IN[B]:=B; ”/* 置 初 值 */ 
CHANGE.:=TRUE; 
WHILE CHANGE DO 
BEGIN 
CHANGE:=FALSE; 
FOR i:=N TO 1 BY 一 1 DO 
BEGIN 
OUTLB J: = WINLS]; 


《9. 2 


NEWIN:=OUT[B,] 一 DEF[B,]UUSE[B,]; 
IF IN[B;J]#NEWIN THEN 
BEGIN 
CHANGE: =TRUE; 
IN[Bi]:=NEWIN 
END 
END 
END 
END 
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重 画 图 9. 21 所 示 流 图 为 图 9. 22 的 形式 ,对 图 9. 22 所 示 流 图 ， | | 


由 算法 可 求 得 各 个 基本 块 出 口 处 的 活跃 变量 集合 。 | | 半 
先 计算 各 基本 块 的 L。 DEF[LB] 和 L .USE[B]。 1 
4| I=l |B, 


二 | 
gL :=3J B， 
了 
置 初 值 :L。IN[B,]=L .IN[B,]=…=L .IN[B,]= 允 。 图 9.22 流 图 


按 算 法 过 代 过 程 可 求 得 三 次 迭代 结果 如 下 : 


第 二 次 迭代 
OUT 


因为 第 三 次 迭代 与 第 二 次 迭代 结果 相同 ,所 以 它 就 是 所 求 的 解 ,其 中 OUTLB;] 已 标注 在 
图 9.22 中 。 根 据 求 得 的 OUT[B] 的 活跃 变量 集 ,可 以 用 来 指导 循环 优化 和 生成 目标 代码 。 


9.5 循环 优化 


9.1 节 从 例子 出 发 已 介绍 了 循环 优化 的 基本 概念 ,本 节 从 一 般 意 义 上 讨论 循环 优化 问题 ， 
并 给 出 优化 算法 。 


9.5.1 代码 外 提 


定义 : 形 如 (S)A:=B op C 的 四 元 式 若 
(1) B,C 为 常量 ; 
(2) 到 达 (s) 点 的 B,C 定 值 点 都 在 循环 外 ( 查 ud 链 可 知 ); 
(3) 到 达 (s) 点 的 B,C 定 值 点 虽 在 循环 内 ,但 只 有 一 个 定 值 点 且 已 被 标 为 循环 不 变 运算 ， 
则 (s) 为 循环 不 变 运 算 ,A,B,C 为 循环 不 变量 。 
循环 不 变 运算 不 论 循环 执行 多 少 次 都 始终 保持 不 变 , 因 而 有 可 能 外 提 到 循环 外 ,以 便 提高 
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目标 代码 的 运行 速度 。 

实行 代码 外 提 时 ,在 循环 入 口 结 点 前 面 建立 一 个 
新 结 点 (基本 块 ) , 称 为 循环 的 前 置 结 点 。 循 环 前 置 结 
点 以 循环 入 口 结 点 为 其 唯一 后 继 ,原来 流 图 中 从 循环 


外 引 到 循环 入 口 结 点 的 有 向 边 改 成 引 到 循环 前 置 结 1 一 
点 ,如 右 图 所 示 。 循环 L 


因为 我 们 考虑 的 循环 结构 ,其 入口 结 点 是 唯 | 1 
的 ,所 以 前 置 结 点 也 是 唯一 的 。 循 环 中 外 提 的 代码 将 统统 外 提 到 前 置 结 点 中 。 
是 否 在 任何 情况 下 ,都 可 把 循环 不 变 运算 外 提 呢 ? 不 一 定 ,外 提 条 件 是 ， 
(1) 该 不 变 运算 所 在 结 点 (基本 块 ) 必 须 是 循环 出 口 结 点 的 必 经 结 点 或 者 该 不 变 运算 所 定 
值 的 变量 在 循环 出 口 之 后 是 不 活跃 的 。 
例如 图 9. 23 所 示 的 流 图 1,B;,B;,B 构成 循环 。 Bs 中 *A:=3? 是 循环 不 变 运算 ,能 和 否 将 
它 外 提 ? 
现 假定 程序 的 两 次 执行 途径 分 别 是 : 
Bl 一 Bs 一 B, 一 Bs 一 出 口 后 B=5 
和 Bi 一 B: 一 B: 一 B, 一 Be 一 出 口 后 B=3 
若 将 B, 中 *A;==3” 外 提 , 那 么 按 上 述 两 条 途径 再 次 执行 后 B 都 等 于 3。 这 说 明 外 提 后 改变 了 
运行 结果 。 究 其 原因 是 B, 不 是 B, 的 必 经 结 点 ,而 且 A 在 出 口 是 活 路 的 。 
(2) 循环 内 不 变 运算 所 定 值 的 变量 只 有 唯一 
的 一 个 定 值 点 。 
例如 图 9. 24 所 示 的 流 图 2,B ,Bs ,B, 构成 循环 ， 
在 循环 中 变量 A 若 有 两 个 定 值 点 ,B, 中 的 *A:=-5 
满足 条 件 (1) ,能 否 外 提 ? 
设 外 提前 流 经 途径 是 ， 
B, ->B; 一 B, 一 Bi,-B: 一 B, ,这 时 B=5 BA |]B， 
外 提 后 同样 的 流 经 途径 ， 


图 9.23 流 图 1 
B, 一 B: 一 B: 一 B, 一 B:~B, ,这 时 B=3 
显然 两 次 结果 不 同 , 原 因 是 A 有 两 个 定 值 点 。 
(3) 外 提 循 环 不 变 运 算 (S)A:=B op C 时 循环 内 所 有 A 的 引用 点 必须 而 且 仅 是 (s) 所 能 
到 达 的 。 


例如 图 9. 25 所 示 的 流 图 3,B, 中 的 “A: 二 2” 定 值 点 满足 前 两 个 条 件 , 它 能 否 外 提 ? 


图 9.24 流 图 2 图 9.25 流 图 3 
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设 外 提前 流 经 途径 是 : 
Bi—™B,—B;: ,B=6 
外 提 后 同样 的 流 经 途径 : 
B 一 B: 一 B: ,B=3 

究 其 原因 是 B 中 引用 的 A 值 不 仅 B, 中 A 的 定 值 可 到 达 ,B, 中 的 A 的 定 值 也 能 到 达 。 

根据 以 上 讨论 ,下 面 介 绍 查找 循环 不 变 运 算 和 代码 外 提 的 算法 。 假 定 已 计算 出 每 个 变量 
在 各 引用 点 的 引用 - 定 值 链 , 则 查找 循环 L 的 不 变 运算 的 算法 是 : 

(1) 依次 查看 L 中 各 基本 块 的 每 个 四 元 式 , 如 果 它 的 每 个 运算 对 象 或 为 常数 ,或 定 值 点 在 
LL 外 (根据 ud 链 可 知 ), 则 将 此 四 元 式 标记 为 “不 变 运算 ”; 

(2) 依次 查看 尚未 被 标记 为 “不 变 运算 ”的 四 元 式 , 如 果 它 的 每 个 运算 对 象 或 为 常数 ,或 定 
值 点 在 L 之 外 ,或 只 有 一 个 到 达 - 定 值 点 且 该 点 上 的 四 元 式 已 标记 为 “不 变 运算 ”, 则 把 被 查看 
的 四 元 式 标 记 为 “不 变 运算 ”。 

(3) 重复 步骤 (2) 直 至 没有 新 的 四 元 式 被 标记 为 “不 变 运算 ”为 止 。 

以 下 是 代码 外 提 算 法 : 

(1) 求 出 循环 工 的 所 有 不 变 运算 。 

(2) 对 步骤 (1) 所 求 得 的 每 一 不 变 运 算 (sS):A:=BopC 或 A:=opB 或 A:=B, 检 查 它 是 
否 满足 以 下 条 件 : 

Q@(s) 所 在 的 结 点 是 工 的 所 有 出 口 结 点 的 必 经 结 点 ,或 变量 A 在 离开 工 后 不 再 活跃 ; 

@A 在 工 中 其 他 地 方 未 再 定 值 ; 

@L 中 所 有 A 的 引用 点 只 有 (s) 中 A 的 定 值 才能 到 达 。 

(3) 按 步骤 (1) 所 找 出 的 不 变 运算 的 顺序 ,依次 把 符合 步骤 (2) 中 条 件 的 不 变 运算 (s) 外 提 
到 工 的 前 置 结 点 中 。 但 是 ,如 果 (s) 的 运算 对 象 (B 或 C) 是 在 LL 中 定 值 的 ,那么 只 有 当 这 些 定 
值 四 元 式 都 已 外 提 到 前 置 结 点 中 时 , 才 可 把 该 (s) 也 外 提 到 前 置 结 点 中 。 


9.5.2 强度 减弱 与 归纳 变量 删除 


在 9.1.2 节 介 绍 强度 减弱 时 是 与 循环 控制 变量 一 起 考虑 的 。 实 际 上 ,程序 中 的 循环 不 仅 
仅 由 循环 控制 变量 所 控制 ,而 强度 减弱 也 不 仅仅 是 将 乘法 运算 变 为 加 法 运算 。 我 们 这 里 讨论 
更 一 般 的 情况 。 

定义 :循环 中 变量 1 只 有 唯一 的 形 如 (s)1: 二 I 十 C 的 赋值 ,其 中 C 为 循环 不 变量 , 则 称 I 为 
循环 中 基本 归纳 变量 。 如 果 变量 本 与 基本 归纳 变量 I 可 归 化 为 线性 关系 本 :二 C1 * I 十 Cz ,其 中 
C1,C; 为 循环 不 变量 , 则 称 本 是 与 工 同族 的 归纳 变量 。 

显然 ,循环 控制 变量 是 基本 归纳 变量 的 特例 。 

1) 强度 减弱 

因为 归纳 变量 与 基本 归纳 变量 成 线性 关系 , 若 能 将 归纳 变量 化 为 自 增 赋值 运算 ,这 就 是 一 
般 意 义 的 强度 减弱 。 

设 I; 二 1+C,J: 二 C1 * I 土 Cs, 现 将 赋值 式 改 用 等 式 代替 ,两 次 循环 结果 用 上 角 标 加 以 区 
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分 , 则 有 : 

Ji 一 CixT+ 士 C 一 Cix (十 C) 士 C 一 CE 十 CC 士 Cz 一 于 十 CC 
还 原 成 赋值 式 表 示 为 J:=J 十 CC。 很 明显 , 它 把 原 线性 运算 化 为 自 增 赋 值 运算 了 。 

2) 删除 归纳 变量 

基本 归纳 变量 的 用 途 是 控制 循环 的 进行 以 及 用 作 计 算 归 纳 变 量 的 值 。 后 者 已 转化 为 自 增 
赋值 运算 式 ,现在 主要 考虑 如 何 变换 循环 控制 变量 。 

设 有 归纳 变量 T :二 C1 * I 十 Cs, 它 本 身 己 化 为 自 增 赋值 算式 T ;二 Ti 十 C1C, 现 在 如 何 将 
让 I rop Y goto(s) 变 换 成 if Ti rop R goto(s) 呢 ?这 里 主要 问题 是 求 出 R 值 。 由 等 价 关 系 可 
知 ,R 的 计算 式 应 是 R: 二 C1 * Y 十 C,。 也 就 是 说 ,只 要 改变 循环 比较 的 终 值 ,很 容易 实现 这 种 
替换 。 如 果 有 多 个 归纳 变量 可 供 选 择 ,那么 选择 哪个 归纳 变量 代替 循环 控制 变量 呢 ? 显然 ,应 
该 选择 循环 中 用 到 的 或 循环 出 口 为 活跃 的 归纳 变量 。 按 此 原则 ,在 9.1.2 节 中 选 Ti 不 如 选 
T: 好 ,因为 Ts 在 循环 中 有 用 ,而 T 没有 用 。 如 果 选 T, 作为 循环 控制 变量 ,请 读者 自行 修改 
图 9.5 循环 优化 后 的 代码 。 

至 此 ,基本 归纳 变量 I 已 没有 用 ,可 以 删除 I 的 自 增 赋值 式 。 

下 面 给 出 强度 减弱 与 删除 归纳 变量 的 算法 : 

(1) 利用 循环 不 变 运算 的 信息 , 找 出 循环 中 基本 归纳 变量 X; 

(2) 找 出 所 有 归纳 变量 A, 并 指出 A 与 X 的 线性 关系 A: 二 C1X 十 C。。 具 体 地 说 ,在 工 中 
找 出 形 如 A: 二 Bx Ci,A: 二 B/Ci,A: 二 B 土 C 等 的 四 元 式 ,其 中 Ci 为 循环 不 变量 ,B 或 是 基 
本 归纳 变量 X 本 身 , 或 是 与 X 同族 的 归纳 变量 

(3) 强度 减弱 ,将 工 中 归纳 变量 的 算式 化 为 自 增 赋值 算式 ,然后 : 

在 循环 前 置 结 点 中 按 原 式 计算 初 值 ; 

@ 将 自 增 赋值 算式 置 于 工 中原 基本 归纳 变量 自 增 赋值 式 之 后 。 

(4) 变换 循环 控制 变量 , 设 S 是 与 X 同族 的 归纳 变量 ,而 且 S 是 循环 中 其 他 四 元 式 要 引用 
或 是 循环 出 口 活跃 的 归纳 变量 ,S 与 X 的 关系 可 表示 成 S; 二 CX 十 Cs, 则 循环 控制 语句 if X 
rop Y goto(s) 可 用 : 

R:=C.*xY 
R:=R+C; 
if S rop R goto(s) 
来 代替 。 
(5) 删除 LL 中 对 X 的 自 增 赋 值 四 元 式 。 


习 题 
9-1 试 把 以 下 程序 划分 为 基本 块 并 作出 其 程序 流 图 。 
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《1 read A.B (2) Lo: read M,N 
F:=1 if M>20 goto Li 
C:=Ax*xA A:=N+l1 
D:=B*B B:=M/N 
if C=<D goto Li :一 Ax2 
E:=AxA D:=C+B 
FE: 一 F 十 1 if D>50 goto L; 
E:=E+F write D 
write E halt 
halt Li: A:=M*5 

Li E:=B*B B:=A+N 
了 :一 F 十 2 write B 
E:=E++F halt 
write E L:: B:=D—15 
if E>100 goto L; write B 
halt goto Lo 

Ls F;:=F—1 M:=M+N 
goto Li A:=M*M 

goto Lo 


9-2 把 下 面 的 程序 段 翻译 成 四 元 式 序列 ,然后 划分 成 基本 块 并 作出 程序 流 图 ( 设 数 组 D 
按 行 存放 ,数组 尺寸 为 10 * 10 ,每 个 下 标 变 量 占 1 个 字 编 址 ,下界 皆 为 1) 。 


Li: 


I:=1 
A:=3 十 B 二 Bx2 

if A>200 then print A 
else DL[I1,J+2]:=A*2 
I: 王 I 十 1 

if I 之 10 then halt 


else goto Li 


9-3 考察 以 下 矩阵 相 乘 程序 语句 : 


(1) 假设 其 中 数组 A,B， 


for i: 王 1 ton do 
for j:=1 to n do 
for k:=1 to n do 
C[Li,j]:=C[i,jj+AL[Li,k] * BLk,j] 


C 均 按 静 态 分 配 存储 单元 , 试 按 7. 4. 5 节 中 FOR 语句 的 第 三 种 


解释 翻译 成 四 元 式 中 间 代 码 ,数据 按 行 存放 ,数组 元 素 占 一 个 字 编 址 ; 
(2) 把 (1) 中 得 到 的 四 元 式 序列 划 分 为 基本 块 , 并 作出 其 流 图 。 


9-4 已 知 两 个 向 量 内 积 的 Pascal 程序 段 已 翻译 成 如 下 一 个 基本 块 , 试 对 它 构造 DAG 
图 ,并 给 出 结 点 表 和 元 表 。 
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(0) P:=0 

(1) Ti:=4*I 

(2) T,:=addr(A)—4 
(3) Ts :=T,[T,] 
(4) T,:=4*I 

(5) Ts:=addr(B)—4 
(6) Te : 王 TsLT4] 
(7) Ty :一 Ta * Te 


(8) Ts:=P+ Ty 
(9 P=T:, 
(10) T, ;=I+1 
111》 1:=Ts 


(12) if I<20 goto(1) 
9-5 考虑 如 下 的 基本 块 : 


Di:=B*C 
E:=A+B 
B:=B*C 
A:;=E+D 


(1) 构造 相应 的 DAG; 
(2) 对 于 所 得 的 DAG ,重建 基本 块 ,以 得 到 更 有 效 的 四 元 式 序列 。 
9-6 试 有 以 下 基本 块 Bl 和 B: 


Bi:，A:=BxC Bz: B:=3 
D:=B/C D:=A+C 
E:=A+D E=A#*C 
F:=2xE F:=D+E 
G:=BxC G:=B#*F 
H:=G*G H:=A+C 
F:.=H*G l:=A*C 
L:=F J: 王 再 十 1 
M:=L K:=Bx5 

L:=K++J 
M:=L 


分 别 应 用 DAG 对 它们 进行 优化 ,并 就 以 下 两 种 情况 分 别 写 出 优化 后 的 四 元 式 序列 ， 
(1) 假设 只 有 G,L,M 在 基本 块 后 面 还 要 被 引用 ; 
(2) 假设 只 有 工 在 基本 块 后 面 还 要 被 引用 。 
9-7 构造 以 下 基本 块 
A[I]:=B 
P¢:=C 
D:=A[LJ] 


E:=P‘ 
P‘¢^:.=A[I] 
的 DAG, 并 指出 有 关 结 点 必须 遵守 的 计算 次 序 , 其 中 假定 : 
(1) P 可 能 指向 任 一 变量 ; 
(2) P 只 指向 B 或 D。 
9 一 8 对 如 图 9. 26 所 示 流 图 


(a) (b) (0 
9.26 题 9-8 


(1) 求 出 流 图 中 各 结 点 n 的 必 经 结 点 集 D(n); 
(2) 求 出 流 图 中 的 回 边 ; 
(3) 求 出 流 图 中 的 循环 。 
9-9 试 画 出 如 下 四 元 式 序列 的 程序 流 图 ,并 求 出 : 
(1) 各 结 点 n 的 D(n); 
(2) 流 图 中 的 回 边 与 循环 。 
$=O 
Li: I:=0 
if I<8 goto Ls 
L:: A:=B+C 
B:=D*xC 
Ls: if B=0 goto L, 
write B 
goto Ls 
Li: I:=I+1 
if I~8 goto L;» 
bee ji 
if J<3 goto Li 
halt 
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9-10 设 有 如 图 9.27 所 示 的 程序 流 图 


(9 DBiC 010) BC*D 
B| (9) EE+1 | 加 B| (DCc=5D | 四 


上 


图 9.27 题 9-10 图 


(1) 试 列 出 深度 为 主 的 排序 ( 列 出 一 种 即 可 )， 
(2) 给 出 回 边 及 循环 ; 
(3) 式 (9) 与 式 (11) 各 变量 的 ud 链 ( 写 出 定 值 点 集合 ); 
(4) 各 基本 块 出 口 处 活跃 变量 集 。 
9 一 11 对 以 下 四 元 式 程序 , 求 出 其 中 的 循环 并 进行 循环 优化 。 
I:=1 
read J ,K 
L: if I>100 goto Li 
A:=K*xI 
B:=]J*I 
;: 二 AxB 
write C 
I: 王 I 十 1 
goto 工 
EL halt 
9-12 设 有 循环 语句 for j:=1l to 10 do A[i,j]: 二 A[i,j] *2 十 10; 
(1) 按 7.4.5 节 中 FOR 语句 的 第 三 种 解释 翻译 成 四 元 式 序列 , 设 数组 A 的 首 地 址 为 addr 
(A), 数 组 按 行 存放 ,每 个 下 标 变量 占 2 个 字 编 址 ,语句 中 步 长 step 二 1; 
(2) 划分 (1) 生 成 的 四 元 式 序列 成 基本 块 , 并 进行 循环 优化 。 
9-13 翻译 下 述 的 二 重 循环 语句 ,划分 基本 块 并 进行 循环 优化 。 
fori:=1 to M do 
for j:=1] to N do 
ALi,j]:=BLi,j] *5 
假定 数组 按 行 存放 ,尺寸 为 M* N, 每 个 下 标 变量 占 1 个 字 编 址 。 


9-14 下 面 是 应 用 筛 法 求 2 到 N 之 间 素 数 个 数 的 程序 。 
begin 
read N; 
fori:=2 to N do 
A[Li]:=true; /* 置 初 值 */ 


fori:=2 to Nx x* 0.5 do /* 运算 符 “* x*” 代 表 乘 方 */ 


if A[i] then /x* i 是 一 个 素数 */ 
begin 
forj:=2x* itoN byido 


A[j]:=false /* j 可 被 i 除 尽 ,i 为 步 长 */ 


end; 
COUNT.:=0; 
fori:=2 to N do 
if A [i] then COUNT:=COUNT 十 1; 
print COUNT 


end 


(1) 试 写 出 其 四 元 式 中 间 代 码 ,假设 对 数组 A 用 静态 分 配 存 储 单元 ; 


(2) 作出 流 图 并 求 出 其 中 的 循环 ; 
(3) 进行 代码 外 提 ; 
(4) 进行 强度 减弱 和 删除 归纳 变量 。 
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10 ”目标 代码 生成 


目标 代码 生成 是 指 将 语法 分 析 或 优化 后 的 中 间 代 码 ( 四 元 式 或 逆 波 兰 式 ) 变 换 成 依赖 于 具 
体 机 器 的 目标 代码 。 目 标 代码 一 般 有 以 下 三 种 形式 : 

(1) 可 立即 执行 的 机 器 语言 代码 ,程序 与 数据 的 地 址 已 分 配 ( 代 真 ); 

(2) 可 浮动 装配 的 机 器 语言 代码 , 当 需 要 执行 时 ,由 装配 程序 将 它们 与 运行 子 程序 、 库 程 
序 连接 起 来 ,转换 成 能 执行 的 机 器 语言 代码 ; 

(3) 汇编 语言 代码 ,通过 汇编 程序 汇编 ,转换 成 机 器 语言 代码 。 

大 多 数 编译 程序 不 直接 产生 可 立即 执行 的 机 器 语言 代码 ,而 是 生成 后 两 种 。 为 介绍 方便 ， 
我 们 生成 模型 机 的 汇编 语言 。 

目标 代码 生成 过 程 着 重 考虑 两 个 问题 :一 是 如 何 使 生成 的 目标 代码 较 短 ;二 是 如 何 充 分 利 
用 CPU 中 的 寄存 器 ,以 减少 访问 内 存 的 次 数 。 这 两 个 问题 实际 上 是 提高 编译 质量 的 问题 , 即 
缩短 目标 程序 的 长 度 ,减少 目标 程序 的 运行 时 间 。 当 然 , 如 何 合理 使 用 计算 机 的 指令 特点 也 是 
提高 目标 程序 质量 的 一 种 重要 途径 ,但 由 于 它 牵涉 的 面 太 广 , 本 书 不 讨论 它 。 


10.1 模型 计算 机 的 指令 系统 


假设 我 们 讨论 的 模型 计算 机 有 多 个 通用 寄存 器 ,它们 既 可 以 做 累加 器 ,又 可 以 做 地 址 寄存 

器 或 变 址 器 ,并 规定 两 个 操作 数 中 至 少 一 个 在 寄存 器 内 ,使 用 的 指令 形式 为 ， 
op 目标 操作 数 , 源 操作 数 

寻 址 方式 只 有 如 下 四 种 : 

(1) 直接 寻 址 :op Ri,M, 含 义 :; (Ri) op (MD) 一 Ri; 

(2) 寄存 器 寻 址 :op Ri ,Ri ,含义 :(Ri)op (Ri) 一 Ri; 

(3) 变 址 寻 址 :op Ri,CCRi) ,含义 :(Ri) op ((Ri) 十 C)~Ri;/* 其 中 Ri 为 变 址 寄存 器 * / 

(4) 间接 寻 址 又 可 分 为 三 种 : 

Dop Ri,@M, 含 义 :(Ri) op ((M)) 一 Ri; 

@op Ri,@Ri ,含义 :(Ri) op ((Ri)) 一 Ri; 

@op Ri,@C(R;) ,含义 :(Ri) op ((Ri) 十 C)) 一 Ri。 
其 中 ,op 指 各 类 运算 指令 ,包括 ADD( 十 ) .SUB( 一 ) .MUL(C* ) .DIV(C/) EXP(C 人 + )、ANDCA) 
和 OR(CV ) 等 ;(R;i) 读 作 Ri 的 内 容 ; 源 操作 数 用 B 表示 , 它 可 以 指 某 寄 存 器 ,也 可 指 某 存储 
单元 。 

除 运算 类 指令 外 ,模型 机 指令 系统 还 包括 传送 类 指令 和 程控 类 指令 ,其 意义 说 明 如 下 : 
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指 仅 含 尺 

LD Ri,B 将 也 单元 的 内 容 传送 到 Ri 寄存 器 , 即 (B) 一 Ri 

ST RB 将 Ri 寄存 器 的 内 容 传 送 到 了 B 单 元 , 即 (Ri) 一 B 

CMP Ri,B 对 Ri 寄存 器 和 也 单元 的 内 容 进行 无 符号 数 比较 ,比较 结果 不 改变 原 
来 操作 数 内 容 , 仅 仅 用 于 设置 状态 字 中 特征 位 。 这 里 假定 只 用 两 位 
特征 位 :Z 用 于 判断 相等 标志 ,C 用 作 进 位 标志 , 当 (R;) 二 (B) 时 ,Z= 
1 ,否则 Z==0; 当 (Ri) 宇 (B) 时 ,C= 二 0, 否 则 C=1 


于 莹 无 条 件 转 向 X 指令 地 址 去 执行 程序 

JE X 等 于 转向 X, 即 当 Z=1 时 跳 至 X 指令 地 址 

JNE X 不 等 于 转向 X, 即 当 Z=0 时 跳 至 X 指令 地 址 

JG X (CRi) 二 (B) 时 转向 X, 即 当 (ZVC)=0 时 跳 至 X 指令 地 址 
JGE X (Ri) 宇 (B) 时 转向 X, 即 当 C=0 时 跳 至 X 指令 地 址 

六 .并 (R;) 二 (B) 时 转向 X, 即 当 C=1 时 跳 至 X 指令 地 址 

和 (Ri;) 声 (B) 时 转向 XX, 即 当 (ZV C)==1 时 跳 至 X 指令 地 址 


条 件 转移 指令 通常 写作 J rop X, 其 中 rop 表示 E,NE,G,GE,L,LE。 

若 条 件 不 满足 , 便 按 程 序 的 顺序 执行 下 一 条 指令 。 

为 简单 起 见 ,在 生成 目标 代码 中 ,变量 的 内 存 地 址 直接 用 变量 名 来 表示 ,而 实际 处 理 时 变 
量 内 存 地 址 可 查 符号 表 获 得 。 


10.2 一 种 简单 代码 生成 算法 


这 里 讨论 以 基本 块 为 单位 生成 目标 代码 ,主要 考虑 如 何 充分 利用 CPU 中 寄存 器 的 问题 。 
一 方面 , 当 生成 计算 某 变 量 的 目标 代码 时 ,应 尽 可 能 地 将 该 变量 的 值 留 在 寄存 器 内 ( 即 不 生成 
把 该 变量 的 值 送 内 存 的 指令 ) ,直至 该 寄存 器 必须 用 于 存放 其 他 变量 值 或 基本 块 出 口 时 才 将 它 
存 人 内 存 。 另 一 方面 ,要 引用 某 变 量 值 的 指令 也 尽量 引用 寄存 器 内 的 内 容 ( 若 在 寄存 器 中 ) ,而 
不 去 访问 内 存 , 仅 当 离开 基本 块 时 , 才 将 这 些 变量 的 值 存 和 内存, 以 便 腾 出 寄存 器 供 生成 其 他 
块 的 目标 代码 。 因 为 若 不 做 全 局 的 数据 流 分 析 ,该 基本 块 的 后 继 是 哪些 基本 块 ,后 继 基 本 块 有 
哪些 前 驱 基 本 块 ,一 般 是 不 知道 的 。 因 此 :后继 块 中 就 无 法 知道 变量 的 值 是 存 于 哪些 寄存 器 
中 。 所 以 ,最 简单 的 处 理 办 法 是 当 离开 基本 块 时 ,将 出 口 是 活跃 的 变量 存 信 内存, 进入 新 的 基 
本 块 后 寄存 器 已 腾空 ,所 需 的 变量 从 内 存 取 值 ,并 重复 上 述 过程 。 


10.2.1 活跃 信息 与 待 用 信息 


为 了 把 基本 块 内 还 要 被 引用 的 变量 值 尽 可 能 地 保存 在 寄存 器 中 ,同时 把 基本 块 内 不 再 被 
引用 的 变量 所 占用 的 寄存 器 及 早 释 放 , 每 当 变换 一 个 四 元 式 *A:=B op C? 时 ,需要 知道 A,B， 
C 是 否 还 会 在 基本 块 内 被 引用 以 及 在 哪些 四 元 式 中 被 引用 。 为 此 ,需要 为 每 个 四 元 式 的 每 个 
变量 附加 两 个 信息 :活跃 (Live) 和 待 用 (Next-Use)。 

活跃 :表示 该 变量 在 本 基本 块 内 以 后 还 要 被 引用 ,用 布尔 值 表示 ,true 表示 活跃 ,false 表 
示 不 活跃 。 
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待 用 :表示 最 靠近 该 变量 的 下 一 引用 点 的 四 元 式 序号 ,用 整 型 量 表示 。 

例如 :有 如 下 基本 块 ,其 出 口 处 变量 W 是 活跃 的 ,我 们 很 容易 用 手工 方法 填写 这 两 个 信 
。 为 了 直观 地 表示 这 两 个 附加 信息 ,在 每 个 变量 的 下 方 设置 一 个 可 填 这 两 个 信息 的 方 框 。 
第 一 个 信息 用 "w ”表示 活跃 ,用 “X” 表 示 不 活跃 ;第 二 个 信息 或 填 待 用 的 四 元 式 序号 或 不 填 。 


C1 T: = A 和 B 2) U: = A Ss C 
(3) V: = 下 村 La 4) W: = V 上 * 三 


下 面 讨论 一 种 算法 实现 这 两 项 信息 的 填写 过 程 。 假 定 在 符号 表 中 为 每 个 变量 (包括 临时 
变量 ) 增 设 两 栏 , 用 于 暂 存活 跃 与 待 用 信息 (它们 仅 是 算法 需要 而 使 用 的 临时 工作 单元 ) 。 大 致 
工作 过 程 是 :从 基本 块 出 口 向 人 口 方向 逐个 扫描 每 个 四 元 式 , 根 据 每 个 变量 的 定 值 与 引用 情况 
建立 各 变量 的 活跃 与 待 用 信息 。 在 填写 过 程 中 利用 符号 表 作 为 暂 存 信息 。 算 法 如 下 : 

PROCEDURE Live-Nextuse; 
BEGIN 将 符号 表 中 与 本 基本 块 有 关 的 各 变量 的 Next-use 栏 全 部 置 为 空 ; 
根据 基本 块 出 口 的 活跃 变量 集 , 将 相应 变量 的 Live 置 true; 
FOR i:=LAST TO FIRST DO 
BEGIN 取 一 个 序号 为 i 的 四 元 式 :A;:=B op C; 
将 符号 表 中 变量 A,B,C 的 Live 与 Next-use 填 到 变量 A,B,C 
的 附加 信息 两 栏 内 ; 
清除 符号 表 中 变量 A 的 Live 和 Next-use 项 ;/ * 因为 A 在 这 一 
式 是 定 值 点 ,以 后 要 引用 A ,就 引用 这 里 的 定 值 点 * / 

将 符号 表 中 B,C 的 Live 置 为 活跃 ,Next-use 置 为 i。 


证 


( 


( 


END 
END 
如 果 四 元 式 形式 为 “A:=op B? 或 “A:=B”, 以 上 执行 步 又 完全 相同 ,只 是 不 涉及 C。 
其 中 FIRST 和 LAST 为 基本 块 内 入 口 和 出 口 四 元 式 序 号 。 按 算法 填写 上 面 的 例子 , 结 
果 与 手工 填写 的 完全 相同 。 


10.2.2 寄存 器 和 变量 地 址 描述 


为 了 在 代码 生成 中 进行 寄存 器 分 配 , 需 要 随时 掌握 各 寄存 器 使 用 情况 : 它 是 空闲 着 还 是 已 

分 配给 某 个 变量 ,或 分 配给 若干 个 变量 ( 若 存在 “X:=Y" 时 ,就 可 能 多 个 变量 共用 一 个 寄存 器 ) 

以 及 这 些 变量 的 待 用 信息 。 因 此 , 需 为 每 个 寄存 器 附加 两 项 信息 :RVALUE 和 RNEXT- 

USE, 在 RVALUE 中 填写 着 R 寄存 器 中 寄存 了 哪些 变量 ,比如 RVALUE[LR] 王 {( )， 

RVALUE[R;]=={X},RVALUE[R;] 二 {X,Y,…}。 在 RNEXT-USE 中 填写 着 R 寄存 中 变量 

的 待 用 信息 。 寄 存 器 附加 的 信息 结构 如 表 10. 1 所 示 . 其 中 RNEXT-USE 的 内 容 可 从 变量 的 
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第 二 个 附加 信息 栏 中 获得 。 
此 外 ,在 生成 目标 代码 时 ,要 了 解 某 变量 是 否 在 寄存 器 内 , 若 在 , 便 不 必 从 内 存 调和 寄存 
器 。 当 要 求 从 已 用 的 寄存 器 中 腾 出 一 个 寄存 器 时 也 需 知 道 该 寄存 器 中 的 变量 在 内 存 是 否 有 副 


本 , 若 有 , 便 不 再 生成 将 寄存 器 中 内 容 送 内 存 保 存 的 指令 。 为 此 ,在 代码 生成 过 程 中 ,我 们 还 要 
建立 一 个 变量 地 址 描述 数组 AVALUE。 它 动态 地 记录 着 各 变量 现行 值 的 存放 位 置 :是 在 某 
寄存 器 中 ,还 是 在 内 存 中 ,或 是 既 在 某 寄存 器 也 在 内 存 中 ,结构 可 用 表 10. 2 表示 。 

表 10.1 寄存 器 描述 数组 表 10.2 变量 地 址 描述 数组 


RVALUE RNEXT-USE 


10. 2.3 代码 生成 算法 


现在 讨论 一 个 基本 块 的 代码 生成 算法 。 为 简单 起 见 , 假 设 基本 块 中 每 个 四 元 式 形式 为 
“A:=B op C”。 如 果 基 本 块 中 含有 其 他 形式 的 四 元 式 , 也 不 难 仿照 下 述 方法 写 出 相应 的 算 
法 。“A:=B op C” 四 元 式 生 成 目标 代码 时 ,要 求 B 必须 在 寄存 器 中 ,C 可 在 寄存 器 也 可 在 内 
存 中 ,结果 A 必定 在 寄存 器 中 ,这 些 是 由 模型 机 指令 系统 所 决定 的 。 下 面 的 算法 就 是 按 这 个 
基本 点 编写 的 。 

(1) 对 于 四 元 式 *A:=B op C” 查 看 变量 地 址 描述 数组 AVALUELB], 若 IN-RLB] 等 于 
Ri , 则 转 步 又 (2) ,和 否则 查 寄存 器 描述 数组 是 否 有 空 寄 存 器 , 若 有 , 选 一 个 寄存 器 Ri , 若 没 有 , 按 
下 述 办 法 腾 出 一 个 寄存 器 Ri : 

加 寄存 器 Ri 中 的 变量 在 内 存 中 有 副本 ; 

@ 寄 存 器 Ri 中 的 内 容 要 在 最 远 的 将 来 使 用 (这 可 通过 查看 RNEXT-USE 而 获得 ) ,并 生 
成 指令 : 

ST Ri ,MI; /* 腾 出 Ri 寄存 器 , 仅 当 Ri 的 内 容 在 内 存 中 无 副本 时 才 生 成 这 条 指 
令 */ 
LD Ri,B; 
这 样 ,B 肯定 在 寄存 器 中 ,接着 执行 RVALUE[R;]:={B},RNEXT-USE[R;]:=B*。 NEXT- 
USE, 并 修改 AVALUE, 使 得 仅 IN-RLBJ] 包 含 Ri, 即 填写 两 个 描述 数组 。 

(2) C 可 在 寄存 器 也 可 在 内 存 中 ,无需 讨 论 分 配 寄存 器 问题 ,但 A 必须 分 配 寄存 器 ,分 配 
方法 是 : 

@ 选 择 原 存放 B 的 寄存 器 来 存放 A。 

如 果 [R;]=={B} ,而 且 B* Live= 不 活跃 或 B= 二 A( 即 四 元 式 为 “A: 二 A op C” 这 种 赋值 形 
式 ) ,那么 可 直接 生成 目标 指令 : 

op RisC /xRi 改 存 Ax/ 
258 


然后 修改 两 个 描述 数组 : 
a. IN-RLB] 中 删 去 R;(IN-M[B] 中 保持 不 变 ) ,IN-RLA] 中 置 以 Ri,IN-MLA] 置 以 No, 表 
示 B 不 在 寄存 器 中 ,但 还 在 内 存 中 ,而 A 仅 在 寄存 器 中 ; 
b. RVALUE[Ri] 置 为 A, 并 添上 RNEXT-USE 的 值 。 
@ 另 外 选择 一 个 寄存 器 存放 A。 
如 果 条 件 四 不 满足 ,但 存在 空闲 的 寄存 器 Ri ,那么 就 选 R 存放 A, 生 成 目标 指令 : 
LD ‘Re,R, (或 写作 MOV Ru ,Ri) 
op Ry,C /x*B 仍 在 Ri, 而 A 在 Ri 中 x*/ 
然后 进行 如 下 操作 : 
a RVALUE[R: ] 置 为 A, 并 添上 RNEXT-USE 的 值 ; 
b. IN-RLA] 置 为 Re,IN-MLA] 置 以 No。 
@ 若 DO 条 件 皆 不 满足 ,那么 选 Rs 的 原则 是 : 
a. 它 所 寄存 的 变量 在 内 存 中 有 副本 ; 
b. 它 的 内 容 要 在 最 远 的 将 来 使 用 (查看 RNEXT-USE 可 获得 )。 
生成 下 列 目标 代码 : 
ST Ry,Mp ”/* 假 设 R 中 存放 的 是 变量 D 且 它 在 内 存 中 无 副本 * / 
LD Ru ,Ri 
OP Re,C /xR 中原 存放 变量 送 入 内 存 DD 单元 , 腾 出 Ri 存放 变量 A*/ 
而 后 在 IN-R[D] 中 删 去 Re ,IN-M[D] 中 置 Yes;IN-R[A] 中 和 置 Ri ,IN-M[A] 中 置 No; RVALUE 
[RyJ 中 删 去 D, 改 置 为 A, 并 添上 NEXT-USE 信息 。 
(3) 若 C 在 R 中 ,根据 C 的 活路 与 待 用 信息 修改 RVALUE 与 RNEXT-USE, 以 便 及 时 腾 
出 不 用 的 寄存 器 供 后 续 四 元 式 生成 目标 代码 时 使 用 。 
例如 ,假定 有 两 个 寄存 器 Ru ,Ri 可 用 , 试 将 下 列 基 本 块 内 四 元 式 变换 成 目标 代码 , 先 对 四 
元 式 中 每 个 变量 附 上 活跃 与 待 用 信息 ,并 按 代码 生成 算法 获得 如 表 10. 3 所 示 的 结果 。 


表 10.3 目标 代码 生成 
目标 代码 Ro 注 解 


CI LDR; A 选取 Ro 存放 A 
(2) LD Ri ,R, 人 A 是 活跃 的 ,所 以 选 Ri 存放 工 


(3) SUB Ri1,B 


(4) SUB RosC A 不 活跃 ,Re 让 给 U 存放 


(5) ADD Ri .Ro TT 不 活跃 ,Ri 让 给 V 存放 


(6) ADD Ri .Ro V,U 不 活跃 ,Ri 让 给 W 放 。 
当 到 出 口 时 ,W 也 存 信 内存 
(7) ST Ri ,W Ro ,Ri 全 让 出 


对 其 他 形式 的 四 元 式 , 也 可 以 仿照 以 上 算法 生成 其 目标 代码 。 我 们 把 各 类 四 元 式 对 应 的 
目标 代码 列 于 表 10.4。 这 里 特别 指出 的 是 ,对 形 如 *A:=B? 的 四 元 式 , 如 果 B 的 现行 值 在 某 
寄存 器 Ri 中 ,那么 这 时 无 需 生成 目标 代码 ,只 需 在 RVALUE[LR;] 中 增加 一 个 A( 即 把 Ri 同时 
分 配给 A 和 B), 把 AVALUE 的 IN-R[LA] 改 为 Ri。 而 且 如 果 其 后 B 不 再 被 引用 ,那么 还 可 以 
把 RVALUE[LR;] 中 的 B 和 AVALUE 的 IN-R[B] 中 的 Ri 删除 。 

一 旦 处 理 完 基本 块 中 所 有 四 元 式 , 对 于 值 只 在 某 寄存 器 中 的 每 个 变量 ,如 果 它 在 基本 块 之 
后 是 活跃 的 (通过 查 基本 块 出 口 的 活跃 变量 集 而 得 知 ) , 则 要 用 ST 指令 把 它 在 寄存 器 中 的 值 
存放 到 它 的 内 存单 元 中 。 为 进行 这 一 工作 ,可 利用 寄存 器 描述 数组 RVALUE 来 决定 其 中 哪 
些 变 量 的 现行 值 在 寄存 器 中 ,再 利用 地 址 描述 数组 AVALUE 来 决定 其 中 哪些 变量 的 现行 值 
不 在 内 存单 元 中 ,最 后 利用 活跃 变量 信息 来 决定 其 中 哪些 变量 是 活跃 的 。 对 上 例 来 说 ,从 
RVALUE 得 知 U 和 W 的 值 在 寄存 器 中 ,从 AVALUE 得 知 U 和 W 的 值 都 不 在 内 存 中 ,由 活 
跃 变量 信息 得 知 ,其 中 仅 W 在 基本 块 出 口 处 是 活跃 的 ,所 以 在 离开 基本 块 之 前 应 生成 一 条 目 
标 指令 : 

ST Ri ,W 
将 W 内 容 存 人 内 存单 元 。 将 所 有 寄存 器 都 腾空 ,这 就 为 编制 下 一 基本 块 做 好 准备 。 当 然 , 当 
基本 块 处 于 循环 中 时 ,对 于 那些 循环 中 各 块 公用 的 变量 ,最 好 不 必 存 入 内 存 , 而 固定 分 配 一 些 
寄存 器 给 它们 ,这 可 以 大 大 减少 运行 时 开销 ,下 节 考 虑 循环 中 寄存 器 分 配 问题 。 
表 10.4 各 类 四 元 式 对 应 的 目标 代码 
目标 代码 注 解 


(1) R; 分 配给 B 

(2) 车 BA 且 B 是 活路 的 , 则 另 取 R 存放 A, 否 则 ,B 
与 A 都 使 用 Ri ,不 产生 第 二 条 指令 

(3) 如 果 B 的 当前 值 在 Ri ,不 产生 第 一 条 指令 


LD Ri,B 
LD Rk ,Ri 
op Ry:C 


LD Ri.B 
LD Rk ,Ri 
op! Rx 


(1) 同 序号 1 的 注解 (1)、(2)、(3) 
(2) op 为 单 目 运算 符 


(1) R; 同时 分 配给 A,B 

(2) 若 B 的 当前 值 在 R, 则 不 产生 目标 指令 
| (1) 车 I 的 当前 值 在 RR, 则 不 产生 第 一 条 指令 
LD Ri,BLRi] (2) Ri 分 配给 A 


LD R;,B 


A:=B[LI] 


LD Ri,B 
A[1]:=B EDR 
ST Ri,ALRi] 


(1) 若 了 的 当前 值 在 R, 则 不 产生 第 一 条 指令 
(2) 若 工 的 当前 值 在 R, 则 不 产生 第 二 条 指令 


goto X JX’ (1) X' 是 序号 为 X 的 四 元 式 的 目标 代码 首 地 址 


LD Ri,A (1) 若 A 当前 值 在 R, 则 不 产生 第 一 条 目标 指令 
if A ropB goto X | CMP Ri,B (2) B 可 在 R 也 可 在 M 
JropX’ (3) rop 为 关系 算 符 ,X' 同 序号 6 


LD Ri;,.@P (1) Ri 分 配给 A 


LD Ri,A (1) R; 分 配给 A 
ST Ri ,@P (2) 若 A 当前 值 在 R, 则 不 产生 第 一 条 目标 指令 


10.3 ”循环 中 寄存 器 分 配 


为 了 生成 更 有 效 的 目标 代码 ,需要 更 有 效 地 利用 寄存 器 。 上 一 节 讨 论 生 成 目标 代码 时 就 
是 以 寄存 器 为 核心 :如果 运算 对 象 在 寄存 器 内 ,就 利用 寄存 器 作为 操作 数 地 址 生成 目标 代码 ; 
运算 结果 留 在 寄存 器 内 ,以 便 用 于 生成 后 续 指令 ;一 旦 占用 寄存 器 的 变量 不 再 被 引用 ,立即 腾 
出 寄存 器 。 但 当时 在 讨论 时 是 以 基本 块 为 单位 的 ,这 一 节 我 们 把 考虑 的 范围 从 基本 块 扩充 到 
循环 ,这 是 因为 循环 是 程序 中 执行 次 数 最 多 的 部 分 ,内 循环 更 是 如 此 。 同 时 ,我 们 不 是 把 寄存 
器 平均 分 配给 各 个 变量 使 用 ,而 是 从 可 用 的 寄存 器 中 分 出 几 个 ,固定 地 分 配给 几 个 变量 单独 使 
用 。 按 什么 标准 来 分 配 呢 ? 我 们 将 以 各 变量 在 循环 内 需要 访问 内 存单 元 的 次 数 为 标准 。 为 
此 ,引入 一 个 术语 :指令 的 执行 代价 ,并 规定 ,每 条 指令 的 执行 代价 等 于 执行 该 指令 时 访问 内 存 
的 次 数 ( 取 指令 也 需 访 问 内 存 一 次 ) 。 

例如 : 

OP Ri Ri 执行 代价 为 1 
OP Ri M 执行 代价 为 2 
OP Ri@R; 执行 代价 为 2 
OP Ri:@M 执行 代价 为 3 

于 是 ,就 可 对 循环 中 每 个 变量 计算 一 下 ,如 果 在 循环 中 把 某 寄 存 器 固定 分 配给 该 变量 使 
用 ,执行 代价 能 节省 多 少 。 根 据 计算 的 结果 ,把 部 分 可 用 寄存 器 固定 分 配给 执行 代价 节省 最 多 
的 那 几 个 变量 使 用 ,从 而 使 这 部 分 寄存 器 充分 发 挥 提高 运算 速度 的 作用 。 下 面 , 介 绍 估算 各 变 
量 节省 执行 代价 的 方法 。 

假定 在 循环 中 某 寄 存 器 固定 分 配给 某 变量 使 用 ,那么 对 循环 中 每 个 基本 块 , 相 对 于 原 简 单 
代码 生成 算法 生成 的 目标 代码 ,所 节省 的 执行 代价 可 用 下 述 方法 来 估算 : 

(1) 在 原 代 码 生 成 算法 中 , 仅 当 变量 在 基本 块 中 被 定 值 或 已 取 至 寄存 器 时 ,其 值 才 存放 在 
寄存 器 中 。 现 在 把 寄存 器 固定 分 配给 某 变 量 使 用 ,因此 在 基本 块 中 当 该 变量 在 定 值 前 每 被 引 
用 一 次 ,就 可 少 访问 一 次 内 存 ,执行 代价 就 节省 1( 若 已 在 寄存 器 则 无 需 访问 内 存 , 所 以 只 能 叫 
估算 ) 。 

(2) 在 原 代 码 生 成 算法 中 ,如 果 某 变量 在 基本 块 中 被 定 值 且 在 基本 块 出 口 之 后 是 活跃 的 ， 
那么 出 基本 块 时 要 把 它 在 寄存 器 中 的 值 存 放 到 内 存单 元 中 。 现 在 把 寄存 器 固定 分 配给 某 变 量 
使 用 ,因此 出 基本 块 时 ,就 无 须 把 它 的 值 存 放 到 其 内 存单 元 中 ,执行 代价 就 节省 2 。 

也 即 :循环 工 中 某 变量 M, 如 果 分 配 一 个 寄存 器 给 它 专用 ,那么 每 执行 循环 一 次 ,执行 代 
价 的 节省 数 可 用 公式 (10. 1) 计 算 。 

这 LUSECM,B) 十 2 x* LIVECM,B)] (10.1) 


其 中 : 
USE(M,B) 王 基本 块 B 中 对 M 定 值 前 引用 M 的 次 数 
1 如 果 M 在 基本 块 B 中 被 定 值 并 在 B 的 出 口 处 是 活跃 的 
0 其 他 情况 
式 (10.1) 是 近似 的 . 它 还 忽略 了 两 个 因素 : 


VEOCBD=| 


261 


(1) 每 次 循环 所 经 历 的 路 径 可 能 不 同 , 有 的 路 径 通 过 的 次 数 多 ,有 的 路 径 通过 的 少 。 但 在 
式 (10.1) 中 ,我 们 认为 各 条 路 径 通 过 的 次 数 相等 ,并 认为 每 循环 一 次 ,各 个 基本 块 都 要 执行 
全 次 。 

(2) 如 果 M 在 循环 人 口 是 活 跃 的 ,并且 在 循环 
中 给 M 固定 分 配 一 个 寄存 器 ,那么 在 循环 入 口 时 ， 
要 先 把 它 的 值 从 内 存单 元 取 到 寄存 器 ,其 执行 代价 


是 2。 若 M 在 循环 出 口 是 活 跃 变量 .但 对 于 循环 而 aedf 
言 , 离 开 循环 之 后 ,寄存 器 就 不 再 固定 分 配给 变量 = oI | 
M, 所 以 必须 将 M 的 当前 值 从 寄存 器 中 存放 到 内 存 beder 
单元 中 ,其 执行 代价 又 是 2。 由 于 这 两 次 的 执行 代 


价 在 整个 循环 中 各 只 要 执行 一 次 ,这 与 式 (10. 1) 每 bcdef bdef 是 活跃 变量 
次 循环 都 要 执行 一 次 相 比 虽然 很 小 ,但 被 我 们 忽 bcdef 是 活路 变量 
略 了 。 10.1 循环 程序 段 


例如 ,图 10. 1 表示 某 程序 的 最 内 层 循环 ,其 中 无 条 件 转移 和 条 件 转移 指令 均 改 用 箭头 来 
表示 ,各 基本 块 入 口 之 前 和 出 口 之 后 的 活跃 变量 已 列 在 图 中 ,假定 Re ,Ri ,R，, 三 个 寄存 器 在 该 
循环 中 可 固定 分 配给 某 三 个 变量 。 现 在 ,利用 式 (10. 1) 来 确定 这 三 个 变量 的 执行 代价 节省 数 ， 
并 生成 该 循环 的 目标 代码 。 

首先 对 变量 a 计算 式 (10.1) 的 值 : 

USE(a,Bi)=0 LIVE(a,Bi)=!1 
USE(a,B,)=1 LIVE(a,B,)=0 
USE(a,B;)=1 LIVE(a,B;)=0 
USE(a,B)=0 LIVE(a,B,)=0 


所 以 ，>) (USE(a,B) 十 2* LIVE(a,B)) 二 4。 同 样 ,可 以 对 变量 b,c,d,e,f 计算 出 式 


BEL 


(10. 1) 的 值 分 别 为 6.3、6、4、4。 按 照 各 个 变量 执行 代价 节省 数 的 大 小 ,把 寄存 器 Re 分 配给 d、 
Ri 分 配给 b;a,e,f 的 执行 代价 节省 数 相等 ,可 把 Rs 分 配给 其 中 任意 一 个 (假设 把 R, 分 配给 
a) 。 三 个 寄存 器 分 配 固定 之 后 ,它们 在 循环 中 只 能 分 别 存放 变量 d,b,a 的 值 。 其 余 变 量 要 用 
寄存 器 时 ,只 能 从 余下 的 寄存 器 中 选取 。 
分 配 好 寄存 器 之 后 ,就 生成 目标 代码 。 其 算法 和 前 述 简单 代码 生成 算法 相 类 似 , 区 别 
如 下 : 
(1) 循环 中 的 目标 代码 , 凡 涉及 已 固定 分 配 到 寄存 器 的 变量 ,就 用 分 配给 它 的 寄存 器 来 表 
示 ,例如 上 述 的 d,b,a 就 用 Re ,Ri .Rs 表示 。 但 是 ,在 生成 *A:=B op C” 的 目标 代码 时 ,如 果 
A 和 C 是 同一 标识 符 ,A 和 B 不 是 同一 标识 符 , 且 寄存 器 R 固定 分 配给 A, 但 B 的 现行 值 不 在 
R 中 ,那么 当 AVALUELCJ 不 在 内 存 中 时 ,应 先生 成 目标 代码 “ST R,C”, 然 后 生成 "A:=B op 
C" 的 目标 代码 。 在 生成 “A:=B OP C” 的 目标 代码 时 应 认为 C 的 现行 值 在 内 存 中 。 即 生成 如 
下 指令 。 
STR,C 
LDR;B 
OP R,C 
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(2) 如 果 其 中 变量 在 循环 和 人口 之 前 是 活跃 的 ,例如 d 和 b, 那 么 在 循环 入 口 之 前 ,要 生成 把 
它们 的 值 分 别 取 到 相应 寄存 器 中 的 目标 代码 ,如 图 10. 2 中 B。 所 示 。 


(3) 如 果 其 中 变量 在 循环 出 口 是 活 跃 的 ,例如 d 
和 bb, 那么 在 循环 出 口 的 后 面 要 分 别 生成 目标 代码 ， 
把 它们 在 寄存 器 中 的 当前 值 存 放 到 内 存单 元 中 ,如 图 
10.2 中 Bs 和 Be 所 示 。 

(4) 在 循环 中 每 个 基本 块 的 出 口 ,对 未 固定 分 配 
到 寄存 器 的 变量 , 仍 按 以 前 的 算法 生成 目标 代码 ,把 
它们 在 寄存 器 中 的 当前 值 存 放 到 内 存单 元 中 ,但 对 已 
固定 分 配 到 寄存 器 的 变量 ,就 无 需 生 成 这 样 的 目标 代 
码 ,这些 已 反映 在 图 10. 2 的 B, ,B: 和 B, 中 。 

按 上 述 原则 ,对 图 10. 1 的 四 元 式 生 成 的 目标 代 
码 如 图 10. 2 所 示 ,其 中 Rs 是 非 固定 分 配 的 寄存 器 。 

对 外 循环 ,也 可 按照 式 (10.1) 计 算出 的 执行 代价 
节省 数 来 分 配 寄存 器 。 设 Li 是 包含 工 的 外 循环 ,可 
对 Li-L 中 的 各 变量 计算 式 (10. 1) 的 值 ,显然 在 工 中 
已 固定 分 配 到 寄存 器 的 变量 ,在 Li-L 中 就 不 一 定 分 
配 到 ;在 Li-L 中 已 固定 分 配 到 寄存 器 的 变量 ,在 工 
中 也 不 一 定 分 配 到 。 所 以 ,要 注意 的 是 ,如 果 变 量 A 
在 Li-L 中 已 固定 分 配 到 寄存 器 ,但 它 在 世 中 没有 分 
配 到 寄存 器 ,那么 在 L 入 口 之 前 必须 生成 目标 代码 ， 


10.2 目标 代码 


把 A 在 寄存 器 中 的 值 存放 到 其 内 存单 元 中 ,并 在 L 出口 之 后 进入 Li-L 之 前 必须 生成 目标 代 


码 , 把 A 在 内 存单 元 中 的 值 取 到 固定 分 配给 A 的 寄存 器 中 。 


10.4 DAG 结 点 的 一 种 启发 式 排序 


为 了 生成 更 加 有 效 的 目标 代码 ,对 基本 块 内 DAG 图 的 结 点 采用 什么 顺序 更 好 呢 ? 先 看 


下 面 一 个 例子 ,考察 如 下 基本 块 的 四 元 式 序列 Gi : 


Ti :一 A 十 B 
Ta: :一 C 十 D 
Ts :一 了 上 一 T: 
工 , ,一 开 一 工 


其 DAG 如 图 10. 3 所 示 ( 图 中 DAG 表示 方法 与 第 9 章 略 有 不 
同 。 这 里 , 结 点 标记 写 在 结 点 圆圈 中 , 叶 结 点 未 加 编号 ,内 部 结 
点 的 编号 写 在 各 结 点 的 下 方 。 为 简单 起 见 , 下 面 就 用 此 表示 


法 )。 
利用 图 10. 3 的 DAG, 把 G 改写 成 四 元 式 序列 G': 
T;:=C+D 
Ts:=E—T; 


10.3 ”Gi 四 元 式 序列 的 DAG 


和 一 太 寺 马 
Ti 一 一 Ts 

显然 G 与 G 是 等 价 的 。 

设 Re 和 Ri 是 两 个 可 使 用 的 寄存 器 。T4 是 基本 块 出 口 之 后 的 活跃 变量 ,应 用 10. 2 节 中 
给 出 的 代码 生成 算法 ,G 生成 的 目标 代码 如 图 10.4 所 示 ,G' 生 成 的 目标 代码 如 图 10. 5 所 示 。 

图 10. 5 的 目标 代码 比 图 10.4 的 目标 代码 短 ,因为 图 10. 5 省 去 两 条 存 取 内 存 的 指令 : 

ST Ro,T 
LD Ri,T, 

从 该 例 可 看 到 ,不 同 的 四 元 式 序列 生成 目标 代码 时 ,将 直接 影响 目标 代码 的 质量 。 

为 什么 重新 排序 后 的 四 元 式 序列 G' 生 成 的 目标 代码 优 于 原 四 元 式 序列 G 生成 的 目标 代 
码 呢 ? 这 是 因为 在 G' 中 ,T, 是 紧 接 在 其 左 运算 对 象 之 后 计算 的 ,这 样 就 可 及 时 利用 Ti 在 寄 
存 器 中 的 值 来 计算 T 的 值 ,避免 了 算 好 Ti 之 后 , 先 要 把 它 的 值 存放 到 内 存单 元 中 ,等 到 算 T 
时 ,再 把 它 的 值 从 内 存 取 到 寄存 器 中 ,而 四 元 式 序列 G 生成 的 目标 代码 正好 存在 着 上 述 缺 点 ， 
所 以 多 了 存 T 和 取 Ti 的 两 条 指令 。 


G: LD Ro,A G': LD Ro,C 
ADD Ro,B ADD Rue,D 
LD Ri,C ID RiisE 
ADD Ri.D SUB Ri,Ro 
ST - RsT LD Ro,A 
LD BRB;E ADD Ro,B 
SUB Ro,R SUB Ro,Ri 
LD Rs 人 Ti SE -RisTs 
SUB Ri.,Ro 
sr RT 

图 10.4 G 的 目标 代码 图 10.5 G' 的 目标 代码 
一 般 情 况 下 , 当 计 算 


X:=A*#*B—C*D 
的 右 部 表达 式 时 ,有 两 种 计算 次 序 : 一 种 是 从 左 往 右 算 , 另 一 种 是 从 右 往 左 算 。 从 右 往 左 算 , 就 
使 得 每 一 被 计算 量 总 是 紧 接 在 其 左 运算 对 象 之 后 计算 ,从 而 使 得 目标 代码 较 优 。 四 元 式 序列 
G 对 应 于 赋值 语句 : 
Ti :一 A 十 B 一 (下 一 (C 十 D)) 
实际 上 ,四 元 式 序 列 G 对 应 于 上 述 赋 值 语句 的 右 部 表达 式 从 左 往 右 计算 结果 。 而 四 元 式 G' 序 
列 对 应 于 上 述 赋 值 语句 的 从 右 往 左 计算 结果 。 
现在 来 说 明 如 何 利用 基本 块 的 DAG ,按照 上 述 的 启发 式 思 想 , 给 基本 块 中 的 四 元 式 序列 
重新 排序 ,以 便 生成 较 优 的 目标 代码 。 下 面 是 给 DAG 中 的 结 点 重新 排序 的 算法 ,这 个 算法 又 
称 作 启 发 式 排序 算法 。 
设 DAG 有 N 个 内 部 结 点 , 工 是 一 维 数组 ,用 于 存放 排序 结果 的 结 点 序号 ,排序 算法 如 下 : 
PROCEDURE Heuristic-Ordering 
BEGIN 
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FOR k:=1 TO N DO T[k]:=null; /* 置 初 值 ,N 为 内 部 结 点 数 * / 
1: 一 Ni; 
WHILE 存在 未 列 人 工 的 内 部 结 点 DO 
BEGIN 选择 一 个 未 列 人 工 但 其 父 结 点 均 已 列 人 工 ,或 无 父 结 点 的 结 点 n; 
TLils=n 
i:=i—1; 


WHILE n 的 最 左 子 结 点 m 不 为 叶 结 点 且 其 父 结 均 已 列 人 工 中 DO 


BEGIN 
T[i]:=m; 
i: 一 i 一 1; 
n:=m 
END 
END; 


END 

最 后 ,在 数组 T 中 (1),T(2),…,T(N) 即 为 所 求 的 结 点 顺序 。 按 上 述 算法 给 出 的 结 点 
次 序 , 可 把 DAG 重新 表示 成 一 个 等 价 的 四 元 式 序列 。 根 据 新 序列 中 的 四 元 式 次 序 , 就 可 生成 
较 优 的 代码 。 这 种 方法 尤其 适用 于 单 累 加 器 的 计算 机 。 

注意 ,在 上 述 的 算法 中 未 给 叶 结 点 排序 ,这 是 因为 :不 需要 生成 计算 机 结 点 值 的 四 元 式 ， 
如 果 在 计算 内 部 结 点 值 时 要 引用 叶 结 点 的 值 , 则 直接 引用 它 的 标记 ;@ 如 果 叶 结 点 上 附 有 其 他 
标识 符 , 这 时 需要 生成 用 叶 结 点 的 标记 对 该 标识 符 的 赋值 指令 ,但 生成 这 类 指令 的 次 序 可 以 是 
任意 的 。 

显然 ,对 图 10. 3 的 DAG, 用 上 述 算法 对 内 部 结 点 进行 排序 ,就 得 到 次 序 为 ns ,ns ,ni,m 的 
结果 。 这 就 是 四 元 式 序列 G' 的 顺序 。 

再 举 一 例 ,考察 下 面 四 元 式 序列 G， : 


Ti := 一 A 十 B 

Ta :一 人 A 一 了 

F:=T! *T, 

Ti:=A—B 

Ts :一 A 一 C 

Ts: : 王 B 一 C 

Ti:=T, * T, 10.6 ”G, 四 元 式 序列 的 DAG 
G:=Tix Ts 


我 们 能 画 出 如 图 10.6 所 示 的 DAG 图 , 它 的 内 部 结 点 只 有 7 个 ,应 用 算法 对 它 进行 启发 式 
排序 。 因 无 父 结 点 的 结 点 有 两 个 :ns ,nz ,所 以 至 少 有 两 种 排序 结果 : 
和 
(1) 选 ns 进行 排序 ns ni ny ne nz ns ns 


< 


nr ne Da Mm Nn» Mm nNs 


(2) 选 n 进行 排序 


箭头 表示 排 好 的 序 , 即 先生 成 ns 结 点 的 目标 代码 ,再 生成 ns 结 点 的 目标 代码 …… 将 它们 转 
化 成 目标 代码 的 序列 如 下 。 设 可 用 寄存 器 是 单 累 加 器 Re ,基本 块 出 口 处 变量 F,G 是 活跃 的 : 


第 一 种 排序 的 四 元 式 序列 


T;:=B—C 
Ta :一 A 一 C 
Si :一 A 一 B 
Ti :一 S *Tz 
G: 一 TixTs 
S 一 A 十 B 
F: 一 Sx*S 
第 二 种 排序 的 四 元 式 序 列 
Ts : 王 B 一 C 
Ta :一 A 一 C 
Si :一 A 一 B 
S: :一 A 十 B 
F: 一 S* Si 
Ti:=S * Te 
G:=T, * T, 


相应 目标 代码 
LD Ro ,B;SUB Ro ,C;ST Ro ,Ts; 
LD Ro ,A;SUB Ro ,C;ST Ro,T,; 
LD Ro ,A;SUB Ro ,B;ST RosS; 
MUL Ro ,T,; 
MUL Ro ,Ts;ST Ro,G; 
LD Ro ,A;ADD Ro ,B; 
MUL Ro,,S ;ST Ro ,F:; 

相应 目标 代码 

LD Ro ,B;SUB Ro ,C;ST Ro ,Ts; 
LD Ro ,A;SUB Ro ,C;ST Ro,T,; 
LD Ro ,A;SUB Ro ,B;ST Ro,Si; 
LD Ro ,A;ADD Ro ,PB; 
MUL Ro ,Si;ST Ro,F 
LD Ro ,Si ;MUL Ro,T,; 
MUL Ro ,Ts;ST Ro,G; 


由 结果 可 见 第 一 种 排序 优 于 第 二 种 ,第 一 种 产生 的 汇编 指令 为 16 条 ,第 二 种 产生 的 汇编 
指令 为 17 条 。 这 说 明了 启发 式 排序 可 获得 较为 满意 的 结果 ,但 不 一 定 是 最 佳 结 果 。 


= 


Ti:=B—C 
Ts:=AxT, 
T;:=D+1 
T:=E—F 
Ts;:=T, x T, 
W:=T,/Ts 


习题 


假设 可 用 寄存 器 为 Ru ,Ri ,' 试 对 以 下 四 元 式 序列 G: 


用 简单 代码 生成 算法 生成 其 目标 代码 ,同时 列 出 代码 生成 过 程 Ro ,Ri 使 用 情况 和 变量 地 址 使 


用 情况 。 


10-2 对 以 下 四 元 式 序列 : 


Ti :一 A 十 B 

Ti= Ti=C 
Ta : 王 D 十 了 

Ts :一 Tz 十 Ts 
Ti: 王 Ti 十 Ts 
Ts:=Ts—E 
F:=T, * Ts 


(1) 应 用 DAG 结 点 的 启发 式 排序 算法 重新 排序 ; 

(2) 假设 可 用 寄存 器 为 Re 和 Ri.F 是 基本 块 出 口 的 活跃 变量 ,应 用 简单 代码 生成 算法 分 
别 生成 排序 前 后 的 四 元 式 序列 的 目标 代码 ,并 比较 其 优 劣 。 

10-3 假设 Re,R 和 Rs 为 可 用 寄存 器 , 试 对 表达 式 : 

(1) A 二 (B+ (Cx (D+E/F+G) * H))+(I*D); 

(2) (Ax(B 一 C))* (Dx(ExF)) 十 ((G 十 CHxJ)) 十 (Jx*(K 十 L))。 
生成 最 短 的 目标 代码 。 

10-4 将 图 10.7(a),(b) 重 排 各 DAG 内 部 节点 的 次 序 , 并 写 出 重 排 后 的 四 元 式 序列 。 


图 10.7 题 10-4 图 
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附录 1 
EL 语言 编译 程序 


A. EL 语言 文法 的 扩充 Backus 表示 法 


《程序 ): := 二 program( 标 识 符 ) ; (分 程序 ). 
《分 程序 ):: 二 (说 明 部 分 )( 复 合 语句 》 
《说 明 部 分 ): :==[( 常 量 定义 );][( 变 量 说 明 ) ;]{( 过 程 或 函数 说 明 );} 
(常量 定义 ):: 二 const( 标 识 符 )==( 无 符号 数 ){(,|;)( 标 识 符 )==( 无 符号 数 )} 
《变量 说 明 ): :=var( 标 识 符 表 ) :integer{;( 标 识 符 表 ) :integer} 
《函数 说 明 ): :=function( 标 识 符 )[(( 标 识 符 表 :integer)] :integer; 
《分 程序 》 
(复合 语句 ):: = 二 begin( 语 句 表 )end 
《语句 表 ):: = (语句 ){;( 语 句 )} 
《标识 符 表 ):: 三 (标识 符 ){,( 标 识 符 )} 
《语句 ): :三 (标识 符 ) ;三 (表达 式 》 
| (复合 语句 》 
| if( 条 件 表达 式 )then( 语 句 )[else( 语 句 )] 
| while( 条 件 表达 式 )do( 语 句 》 
read(《 标 识 符 表 )) 
write( (表达 式 表 )) 
| 
(表达 式 表 ):: = (表达 式 ){, (表达 式 )} 
(条 件 表达 式 ) :: = (表达 式 )[ (关系 运算 符 )( 表 达 式 )] 
(表达 式 ):: =[ 十 | 一 ]( 项 ){( 加 减 运算 符 )( 项 )} 
《项 : :三 (因子 ){( 乘 除 运 算 符 (因子 》} 
《因子 : :一 (标识 符 )| (无 符号 数 )| (标识 符 )L(( 表 达 式 表 )] 
| (( 表 达 式 )) 
(关系 运算 符 )::= 二 | 二 =|=| 达 |<=|<> 
《加 减 运 算 符 ): :一 十 | 一 
《乘除 运算 符 ):: = x |/| div 
说 明 :(1) 标识 符 为 由 字母 打头 的 长 度 在 8 个 以 内 的 字母 数字 串 ; 
(2) 无 符号 数 为 取 值 范围 为 一 32 768 一 32 767 的 整数 ; 
(3) 保留 字 由 小 写字 母 组 成 ; 
(4) 除法 符号 “/” 等 价 于 div, 表 示 整 除 。 
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B. EL 语言 编译 程序 构造 的 实践 指导 


一 、 概 述 

编译 程序 是 大 型 软件 ,学 生 无 法 在 有 限 的 课时 内 完成 它 。 为 此 ,我 们 选择 Pascal 语言 的 
真子 集 EL 语言 作为 编译 的 对 象 语言 。 因 为 该 语言 具有 Pascal 语言 的 面向 算法 语言 的 主要 特 
点 。 比 如 , 它 具 有 函数 的 嵌 套 及 函数 的 递归 调用 ,具有 结构 化 程序 的 语句 类 型 。 但 为 了 压缩 所 
构造 的 编译 程序 的 规模 ,决定 EL 语言 仅 包含 赋值 语句 、IF 条 件 语句 .WHILE 循环 迭代 语句 
以 及 必要 的 输入 输出 语句 。 数 据 类 型 先 考 虑 整 型 ,实现 麻 瞧 虽 小 五 脏 俱全 的 目的 。 如 果 必 要 ， 
可 很 方便 地 构造 扩充 语言 的 编译 器 ,比如 车 把 实践 上 升 为 课程 设计 ,可 构造 扩充 的 EL 语言 的 
编译 程序 。 扩 充 的 EL 语言 文法 定义 见 附录 C。 

编译 程序 用 Pascal 语言 或 C 语言 编写 。 

整个 实践 过 程 分 四 个 部 分 , 随 教学 进展 逐步 完成 。 

1. 词法 分 析 。 可 将 它 编 成 一 个 过 程 ,对 用 EL 语言 编 的 源 程序 ( 存 于 磁盘 中 ) 逐 行 逐 词 地 
进行 分 析 。 将 被 识别 的 单词 转化 为 规格 相同 的 二 元 式 ( 类 号 ,内 码 ), 交 给 语法 分 析 程 序 进一步 
处 理 。 

2. 语法 分 析 。 调 用 语法 分 析 程 序 , 取 回 单词 的 二 元 式 (类 号 ,内 码 ) ,按照 语法 规则 检查 它 
在 语法 上 的 正确 性 。 对 不 正确 的 语句 及 时 向 用 户 报告 出 错 的 行 号 及 出 错 的 性 质 ,以 便 及 时 纠 
正 。 这 一 部 分 实践 不 产生 结果 ,只 检查 源 程序 的 正确 性 。 

3. 不 含 函 数 说 明和 函数 调用 语句 的 源 程序 的 翻译 。 强 调 语法 制导 翻译 , 即 要 求 在 一 遍 编 
译 中 生成 四 元 式 中 间 代 码 序列 。 

4. 会 函数 说 明和 函数 调用 语句 的 源 程序 的 翻译 。 该 翻译 要 求 考 虑 动态 数据 区 的 构造 ,要 
求 符号 表 的 嵌 套 构造 ,比较 抽象 .要 等 到 学 生 学 过 运行 时 数据 区 构造 之 后 才能 做 。 

编译 结果 生成 的 中 间 代 码 可 通过 解释 执行 程序 解释 执行 ,并 产生 运行 结果 。 但 是 解释 程 
序 不 是 编译 的 必要 部 分 ,其 程序 请 参见 附录 C。 

在 开发 EL 语言 的 编译 程序 过 程 中 ,必须 按照 结构 化 程序 设计 方法 开发 软件 ,模块 划分 要 
清晰 ,模块 间 的 数据 传递 格式 要 一 致 。 编 写 的 程序 要 便于 调试 .测试 和 维护 ,要 求 上 机 前 编 好 
程序 并 进行 程序 的 静态 跟踪 ,编制 的 程序 要 求 文档 齐全 ,添加 必要 的 注释 ,提高 程序 可 读 性 。 

EL 语言 编译 系统 是 一 个 编译 -解释 执行 系统 ,其 重点 是 编译 。 它 采用 一 遍 编译 ,以 语法 分 
析 为 核心 ,由 它 调用 词法 分 析 程 序 取 回 单词 的 类 号 ,语法 分 析 就 利用 这 些 类 号 查 造 符号 表 等 ， 
进行 语法 制导 翻译 。 如 遇 语 法 或 语义 错 , 则 随时 调用 出 错 处 理 程序 ,并 显示 出 错 信 息 。EL 语 
言 编译 系统 可 用 附 图 1 的 框图 表示 。 

二 、 实 验 一 ”词法 分 析 

词法 分 析 是 编译 程序 设计 的 第 一 阶段 ,通常 把 词法 分 析 当 作 过 程 处 理 而 不 作为 独立 的 一 遍 。 
为 了 从 EL 语言 编译 程序 的 整体 考虑 , 主 程序 Lexical 应 设计 成 循环 迭代 语句 ,每 调用 一 次 词法 分 
析 程 序 ,返回 一 个 二 元 式 ( 类 号 ,内 码 ), 直 至 返回 '. ' 的 二 元 式 (26, 一 ) 为 止 。 其 结构 如 下 : 


program Lexical; 


begin 


setreserve; { 建 保留 字 表 } 
read (sourcefn) ; { 读 源 文件 名 } 
assign(sf,sourcefn) ; 
reset(sf) ; 
scanner(ayb); 
while a 所 二 26 do 
scanner(a,b); 
close( sf{); 


end. 


读 一 行 


附 图 1 EL 语言 编译 系统 框图 


根据 EL 语言 的 词法 规则 构造 相应 的 有 限 自 动机 FA 进行 词法 分 析 , 因 为 FA 的 构造 
比较 简单 ,下 面 仅 简单 介绍 词法 分 析 程 序 scanner 的 大 致 过 程 : 
proc. scanner(a,b); 
ch:char;token: string; 
inline: string[ 80];lineno:int; 
symtab:array[0. . 20 J]of string; {简易 符号 表 } 
numtab:array[0.. 20 Jof int; {常量 表 } 
proc. getchar; 
proc. getnbce; 
proc. error; 
func. reserve(token) :int; { 查 保留 字 表 )} 
func. symbol(token) :int { 查 造 简易 符号 表 } 
func. dtab(num) :int; { 查 造 常 量 表 } 
begin 
token :一 “…;num: 一 0; 
getnbc; 
case ch of 
a {处 理 保留 字 或 标识 符 , 返 回 (类 号 ,内 码 )} 
EU {处 理 常 量 ,返回 (类 号 ,内 码 )} 
ny {处 理 各 类 界 符 和 运算 符 , 注 意 单 目 运算 符 的 处 理 } 
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else error (15) 
end of case 
write( | ,a) { 仅 显示 类 号 )} 
end; 
其 中 ,getnbc 表示 取 非 空 字符 ,同时 考虑 滤 去 注解 ;getchar 表示 取 一 字符 ,它们 的 算法 如 下 : 
proc. getnbce; 
10: getchar; 
while ch 一 “do getchar; 
if ch 一 ' (then 
begin repeat getchar until ch 一 ') ;goto 10 end 


end; 


proc. getchar; 

if ii 一 jj then 

{ii: 一 j: 一 0; 
从 sf 文件 中 读 一 行 至 inline 并 显示 输出 ,jj 指向 行 尾 ; 
lineno :一 lineno 十 1}; 

ii: 一 ii 十 1; 

ch:=inline[ii]; 

if ch in[’A'..'Z'Jthen chrCordCch) 十 32) 
end; 


符号 表 与 常量 表 都 从 0 号 单元 起 存放 ,符号 表 需 检查 重 定义 。 有 能 力 的 学 生 希 望 能 处 理 
无 符号 实数 。 
EL 语言 各 单词 的 类 号 见 表 3. 4。 
[ 例 1] EL 语言 的 某 一 源 程序 及 其 词法 分 析 后 的 各 单词 类 号 。 
program fibonacci; |13|21|14 
var m:integer; |18|21|25|19|24 
function fib(n:integer) :integer; |7|21|27|21|25|9|28|25|9|24 
begin |1 
if n=0 then fib:=0 |8|21|38|22|16|21|44|22 
else if n=1 then fib:=1 |5|8|21|38|22|16|21|44|22 
else fib:=fib(n—1)+fib(n—2)|5|21|44|21|27|21|35|22|28 


134121127|21135|122128 
end;|6|24 


begin |1 

read(m);|14|27|21|28|24 

write (fib(m)) |20127121127121128128 
end. |6|26 
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三 、 实 验 二 ”语法 分 析 
语法 分 析 是 检查 用 EL 语言 编写 的 源 程序 是 否 满足 EL 语言 的 语法 定义 , 它 是 编译 程序 的 
核心 部 分 。 当 进行 语法 分 析 时 ,调用 词法 分 析 程 序 取 回 单词 的 类 号 ,判别 这 些 单词 是 否 可 组 成 
正确 的 语句 :如 果 正 确 , 则 语法 分 析 通 过 ,并 将 它 转换 成 中 间 代 码 ( 这 是 下 一 阶段 的 任务 ); 否 
则 ,报告 出 错 的 性 质 及 出 错 的 行 号 。 
语法 分 析 分 自 上 而 下 和 自 下 而 上 两 种 方式 ,限于 时 间 我 们 仅 选择 用 递归 下 降 方法 进行 语 
法 分 析 。 前 面 给 出 的 EL 语言 文法 是 用 扩充 的 BNF 式 描述 ,原则 上 可 以 直接 用 作 编 写 不 带 回 
淹 的 递归 下 降 子 程序 。 但 是 为 了 下 一 实验 的 翻译 需要 ,部 分 文法 作 如 下 改写 : 
《程序 ) : :一 program( 标 识 符 )( 分 程序 . 
《分 程序 ): :=[(( 标 识 符 表 ) :integer) :integer];[ (常量 定义 )] 
[( 变 量 说 明 )J]{( 函 数 说 明 )} (复合 语句 》 
《函数 说 明 ): :二 function( 标 识 符 〉( 分 程序 〉; 
《语句 ): :一 read(( 标 识 符 ){ ,标识 符 )})|… 
《因子 )::=( 标 识 符 )[(( 表 达 式 ){, (表达 式 )))]|… 


《标识 符 表 的 定义 有 两 处 用 到 :一 处 在 说 明 语句 ,一 处 在 read 语句 ,它们 在 翻译 时 的 语义 
动作 不 同 。 为 此 ,在 read 语句 中 没有 使 用 (标识 符 表 ) 定 义 。 同 样 地 , (表达 式 表 ) 的 定义 也 有 
两 处 用 到 :一 处 在 write 语句 ,一 处 在 因子 ,在 因子 中 没有 使 用 (表达 式 表 ) 的 定义 。 此 外 , 算 符 
的 定义 不 另 写 产生 式 ,结合 具体 环境 直接 分 析 更 好 些 。 

语法 分 析 的 主 程序 可 在 原 Lexical 基础 上 进行 改写 ,并 改名 为 syntax: 

program syntax; 
flag: boolean; 
scanner(a,b); 
if a=13 then scanner(a,b); 
if a=21 then scanner(a,b); 
if a=24 then scanner(a,b); 
BLK; { 调 分 程序 } 
if a= 二 26 then error(14); 
writeln('This syntax has been completed!1 ) ; 
if flag then writeln('This grammar of source program is regular. ) 
else writeln('This grammar of source program is wrongl! ) ; 
end of syntax. 
其 中 flag 为 作 标志 ,开始 置 true, 当 遇 到 错误 而 调 error 时 将 它 置 为 false。 
proc. BLK; 
if a="('then 
begin scanner(a.b); {处 理 形 参 } 
IDT; { 调 标识 符 表 } 
if a=':'then scanner(a,b) 
if a= ‘integer' then scanner(a,b) 
7 


if a< >')'then error(0)else scanner(a,b) 
end; 
if a 一 ': then scanner(a,b); 
if a= "integer'then scanner(a,b); 
if a 一 '; then scanner(a,b)else error(13); 
if a 一 'const'then constant; { 调 常量 定义 } 
if a 一 "var'then vary; { 调 变量 说 明 》 
if a= ‘function’'then funcpro; { 调 函 数 说 明 } 
while a= 'function’'do funcpro; 
if a< >'begin'then error(6) 
else CS { 调 复合 语句 }》 
if a< >';'ora< > .then error(13) 
end of BLK 


为 了 在 编程 时 各 子 程序 取 名 一 致 , 现 作 如 下 约定 : 


《程序 》 取 名 P 《分 程序 》 取 名 BLK 
(常量 定义 》 取 名 constant (变量 说 明 》 取 名 vary 
《函数 说 明 》 取 名 funcpro (复合 语句 》 取 名 CS 
《标识 符 表 》 取 名 wT 《语句 》 取 和 名 sentence 
(表达 式 表 》 取 名 ET (条 件 表达 式 》 取 名 CE 
(表达 式 》 取 名 E (项 ) 取 名 T 
《因子 取 名 F 


语法 分 析 结 果 仅 指出 源 程序 是 否 正确 。 若 有 错误 应 该 指出 出 错 的 性 质 和 出 错 的 行 号 。 下 
面 列 出 EL 语言 语法 分 析出 错 序号 与 出 错 性 质 的 对 照 表 ,读者 可 增添 。 


出 错 性 质 出 错 性 质 
期 望 “)” 期 望 < 一 ” 
期 望 因 子 期 望 “:” 
期 望 :一 ” 缺 integer 说 明 

期 望 “then” 期 望 “;” 
期 望 “do” 缺 ”。” 
期 望 “)” 不 认识 字符 

期 望 *begin” 标识 符 重 定义 
期 望 *“end” 整数 越界 

期 望 标识 符 标识 符 未 定义 
期 望 常量 
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出 错 处 理 程序 : 
proc,error (x:int); 
begin 
write(lineno, line!'); 
Case x of 


0:writeln(’expected” )”’); 


end; 
flag: =false 
end; 
现 仍 以 例 1 的 源 程序 作为 语法 分 析 的 源 程序 ,分 析 结 果 应 能 指出 它 是 正确 的 。 然 后 ,人 为 
地 在 源 程序 中 设置 错误 ,那么 语法 分 析 程 序 应 能 指出 出 错 的 性 质 和 出 错 的 行 号 。 由 用 户 改 错 
后 继续 分 析 , 直 至 正确 为 止 。 若 学 生 上 机 的 时 间 有 富余 ,请 学 生 分 析 EL 语言 扩充 部 分 ,其 文 
法 见 附录 C。 但 是 基本 部 分 必须 调试 成 功 ,因为 下 一 个 实验 要 用 到 它 。 
四 、 实 验 三 ”不 含 函数 说 明和 函数 调用 语句 的 源 程序 的 翻译 
因为 包含 函数 说 明和 调用 语句 的 翻译 涉及 运行 时 数据 区 的 分 配 与 回收 .符号 表 的 分 配 与 
回收 等 操作 ,比较 复杂 ,由 下 一 实验 进一步 完成 。 
翻译 时 强调 语法 制导 , 即 在 语法 分 析 的 基础 上 执行 相应 的 语义 动作 ,将 源 程序 翻译 成 一 组 
四 元 式 中 间 代 码 序列 。 
四 元 式 格式 如 下 : 
(OP,argl,arg2,result) 
其 中 ,OP 为 操作 码 , 或 为 运算 符 ,或 为 指令 ;argl 存放 第 一 运算 量 ;arg2 存放 第 二 运算 量 ;re- 
sult 存放 结果 的 符号 表 和 口 地 址 .常量 表 入 口 地 址 或 临时 变量 序号 。 具 体操 作 码 包括 : 
运算 符 : 十 ,一 ,* ,/,@,:=; 
跳 步 指令 :j ,jeq,jgt,jlt,jge,jle,jne; 
输入 输出 指令 :in,out 
此 外 ,还 有 几 条 与 函数 调用 有 关 的 指令 : 


prt 一 一 建立 当前 运行 数据 区 的 栈 顶 指针 ,实际 上 它 是 top 十 1; 
1 一 转 季 指令 ; 
ret 一 一 由 子 程序 返回 指令 。 


为 了 区 分 四 元 式 中 的 变量 .常量 (包括 符号 常量 ) 和 临时 变量 ,变量 直接 用 符号 表 入 口 地 址 
表示 ,常量 用 常量 表 入 口 地 址 十 1000 表示 ,临时 变量 从 2000 号 开始 编排 。 在 翻译 时 符号 表 组 
织 与 词法 分 析 时 符号 表 组 织 不 相同 , 需 重 新 构造 。 在 说 明 语 句 部 分 是 为 变量 填写 符号 表 ( 包 括 
检查 变量 的 重 定 义 ) ,在 语句 部 分 是 查 变量 在 符号 表 的 入 口 地 址 。 常 量 表 无 重重 新 构造 ,可 直 
接 使 用 词法 分 析 时 构造 的 常量 

四 元 式 存 于 记录 数组 中 ,其 数据 描述 是 : 

quad:array[ 0.. 100] of 


record 
7 


OP:string; 
argl,arg2,result:int; 
end; 
符号 表 结 构 也 是 记录 数组 ,其 数据 描述 如 下 : 
table:array[ 0. .40]of 
record 
name:string; 
cat»val,level.addr:int; 
end; 
在 翻译 时 , 源 程序 的 说 明 语 句 不 生成 代码 ,其 主要 的 任务 是 查 填 符 号 表 等 工作 ,而 语句 部 
分 是 译 成 四 元 式 中 间 代 码 序列 。 任 何 语句 翻译 结果 皆 留 待 填 语句 链 , 等 到 遇 上 “;” 或 “end” 时 ， 
用 nextq 进行 回填 。 为 了 实现 翻译 还 得 编制 下 列 语义 过 程 (或 函数 ) 以 供 调用 : 
(1) gen(OP,argl,arg2,result) ,生成 一 条 四 元 式 并 记 入 quad 序列 ; 
(2) backpatch(p,t) ,回填 过 程 ; 
(3) merg(p1i,ps) ,并 链 困 数 ; 
(4) newtemp, 取 下 一 个 临时 变量 序号 ; 
(5) fill(id,k) ,将 标识 符 填 人 符号 表 的 过 程 ; 
(6) entry(id) , 查 标识 符 在 符号 表 中 登记 的 地 址 (入 口 地 址 ) 。 
其 中 fill(id,k) 与 entry(id) 的 算法 如 下 : 
proc. fill(id,k) ; {根据 标识 符 的 说 明 环境 ,k 分 三 类 属性 :变量 ,符号 常量 和 函数 名 } 
for i; 二 tpo 十 1 to tp do{tpo 十 1 .tp 为 当前 函数 的 符号 表 首 、 尾 指针 》 
查 当 前 函数 中 id 是 否 有 重 定义 错 ; 


tp: 王 tp 十 1; 

with table[tp]jdo { 无 错 则 在 表 中 增添 一 行 } 
{name:=id;cat:=k;leval:=lev; {leval 填 层次 , 主 程序 lev 为 0 层 } 
case k of 


变量 :addr: 王 分 配 的 数据 区 地 址 ; { 数 据 区 从 5 号 单元 开始 分 配 } 
符号 常量 :val:=nun 的 常量 表 入 口 地 址 ; 
函数 名 :addr: 二 nextq 
end of case) 
end of fill; 
注意 ;数据 区 即 指 运行 时 的 活动 记录 ,0 号 单元 存 该 函数 运行 结果 ,1 号 存 静 态 链 SL,2 号 
存 动态 链 DL,3 号 存 返 回 地 址 RA,4 号 空 ( 见 附 图 2) ,所 以 从 5 号 单元 开始 分 配给 局 部 区 的 形 
参 或 变量 。 数 据 区 的 建立 与 撤除 由 解释 程序 完成 。 
proc. entry(id) ; 


i: 一 tp; 

tableL0]。name: 王 id; 

while table[i] « name=<>id do i:=i—1; 
retum(1) 
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end of entry; 
[ 例 2] 将 不 含 函数 说 明 的 如 下 EL 语言 源 程序 译 成 四 元 式 代码 序列 。 
program samecage; { 鸡 免 同 笼 } 
const z=0; 


var head,foot,cock,rabbit,n:integer; 


begin 
ni: 一 Zi; tn 用 作 标 志 》} 
read(head ,foot); 
cock :一 1; 
while cock==head do 
begin 


rabbit :一 head 一 cock; 

if cock * 2 十 rabbit * 4 一 foot then 
begin 
write(cock ,rabbit) ; 
n: 一 n 十 1 

end; 
cock :一 cock 十 1 
end; 


if n=0 then write(0 ,0) 


end. 
构造 的 符号 表 与 常量 表 如 附 表 1 与 附 表 2 所 示 。 
附 表 1 例 2 符 号 表 附 表 2 常量 表 


tp 二 1 一 Zz 


head 

foot 

cock 

rabbit 

tp 一 
生成 的 四 元 式 代码 序列 为 : 

C1 C= (1159 一 5 一 到 号 
(C2) Drt 一 > 一 2107) C16) outy 一 一 27)》 
(3) (:= ,1000,— ,9) 《172 Couts—3— 38) 
C4 A = = (18) (十 ,9,1001,2005) 
一 一 6) (19) (:= ,2005,— ,9) 
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CO A 0 一 人 (20) (十 ,7,1001,2006) 


(7) (Gjle,7,5,9) (21) (:= ,2006,—,7) 
(8) (j ,一 ,一 ,23) (22) (j, 一 ,一 ,7) 
(9) (一 ,5,7.2001) (23) (jeq,9.1000,25) 
(10) (:= ,2001,—,8) (24) (j, 一 ,一 ,27) 
(11) (* ,7,1002,2002) (25) (out, 一 ,一 ,1000) 
(12) (x ,8,1003,2003) (26) (out, 一 ,一 ,1000) 
(13) (十 ,2002,2003,2004) (27) (ret, 一 ,一 ,一 ) 
(14) (jeq,2004,6.16) 

解释 执行 ,并 产生 结果 : 


would you run the program? y/n y 

input one number,pleasel! 

100 {输入 100 只 } 

input one number 

250 {输入 250 个 足 } 

75 25 end {运行 结果 有 75 只 鸡 和 25 只 兔子 } 


其 中 (1),(2) 和 (27) 条 四 元 式 是 考虑 到 有 函数 说 明 而 产生 的 ( 见 下 一 实验 ), 对 于 本 实验 ， 


因 无 函数 说 明 , 可 不 生成 这 些 四 元 式 。 
对 于 生成 的 四 元 式 ,可 用 解释 程序 解释 执行 ,并 得 运行 结果 。 解 释 程 序 见 附录 C。 
五 、 实 验 四 含 函 数 说 明和 函数 调用 语句 的 源 程 序 的 翻译 


EL 语言 允许 函数 向 套 定义 和 递归 调用 ,每 个 函数 的 定义 总 是 包含 说 明 部 分 和 语句 部 分 。 
说 明 部 分 仍然 是 填写 符号 表 并 为 变量 分 配 存储 单元 。 但 必须 注意 ,每 次 调用 而 进入 一 个 函数 
时 要 求 重新 建立 一 个 数据 区 (在 原 数据 区 的 栈 项 再 盆 筑 一 个 数据 区 ) ,并 从 该 区 的 5 号 单元 开 
始 分 配 变 量 地 址 。 而 且 每 嵌 套 定义 一 个 函数 ,其 层次 加 1, 符号 表 不 另行 构造 , 仅 在 原 符号 表 


上 添加 ,用 指针 加 以 区 分 。 当 对 该 函数 的 定义 处 理 结束 时 ,函数 内 的 语句 已 翻译 完毕 ,因此 


二 | 
Ez 


次 可 减 1, 回 到 外 层 , 符 号 表 所 占 的 空间 也 应 退回 至 外 层 的 位 置 。 上 述 的 构造 方式 是 为 了 遵守 
“标识 符 的 最 小 作用 域 ?原则 ,以 及 “不 同 函 数 内 允许 使 用 同名 标识 符 ,而 被 看 作 不 同名 字 ” 这 一 


目的 。 


为 了 处 理 上 述 过 程 ,最 简便 的 办 法 是 在 为 处 理 ( 分 程序 ) 而 调用 BLK 时 ,将 层次 和 符号 表 
的 可 用 域 开 始 指 针 tp 作为 实 参 传递 至 过 程 BLK 并 在 BLK 过 程 内 完成 对 函数 的 各 种 处 理 任 
务 。 因 此 , 当 对 函数 定义 处 理 结束 ,退出 BLK 并 回 到 施 调 程序 时 ,也 就 自动 地 回 到 调用 过 程 的 


层次 和 符号 表 的 指针 。 
调用 BLK 语句 与 BLK 过 程 的 大 致 格式 如 下 : 

call BLK (lev,tp); {lev,tp 为 调用 程序 的 层次 和 符号 表 的 指针 } 

proc. BLK(lev,tp); 
proc. fill(id, k); {填写 符号 表 } 
func. entry(id); { 查 变 量 的 符号 表 入 口 地 址 } 
lev:=lev+1;tp0:=tp;cp0:=nextq; 
gen(j ,一 ,一 ,0); 
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处 理 常量 定义 和 变量 说 明 ; 


处 理 函 数 说 明 ; 
backpatch(cp0 ,nextq) ; 
gent prt's—y—sdp)s {dp 为 数据 区 栈 顶 的 空 单元 指针 } 
翻译 复合 语句 ; 
backpatch(s。chain ,nextq) ; 
CE 一 0 
end of BLK; 


其 中 ,语义 过 程 fill 和 语义 函数 entry 必须 置 于 BLK 之 中 ,因为 它们 用 到 tp 指针 。 其 余 
的 语义 过 程 可 置 于 任意 位 置 。 
其 中 三 条 生成 四 元 式 的 指令 是 每 调用 一 个 (分 程序 ) 所 必须 做 的 : 
第 一 条 生成 OG, 一 ,一 ,0) 指 令 是 为 了 跳 过 函数 说 明 语句 部 分 生成 的 四 元 式 语句 序列 ; 
第 二 条 生成 (prt, 一 ,一 ,dp) 指 令 是 为 了 设置 该 函数 数据 区 的 栈 顶 指针 (指向 栈 顶 空 单 
元 ), 目 的 是 在 调用 (包括 递归 调用 ) 函 数 时 在 栈 顶 驹 筑 新 数据 区 ,该 单元 即 用 作 存 放 函 数 的 返 
回 值 ; 
第 三 条 (let, 一 ,一 ,0) 指 令 用 于 表明 函数 调用 已 结束 ,返回 。 
转子 指令 (jsr, 一 ,arg2,addr) 和 后 两 条 指令 在 解释 执行 时 用 作 建 立 和 撤销 该 函数 的 数据 
区 ( 详 见 解释 程序 ) 。 
由 于 允许 函数 嵌 套 ,因此 当前 函数 除了 允许 使 用 本 函数 说 明 的 变量 外 还 允许 使 用 其 直系 
外 层 说 明 的 变量 。 所 以 变量 地 址 除了 应 指出 相对 地 址 外 ,还 应 加 上 层次 的 概念 。 当 前 层 层 次 
取 0, 直 接 外 层 的 层次 取 1…… 变 量 地 址 必须 用 三 位 数字 表示 ,最 高 位 表示 相对 的 层 号 ,后 两 位 
表示 层 内 的 相对 地 址 。 例 如 ,“007” 表 示 当 前 层 的 7 号 单元 ;“107” 表 示 直 接 外 层 中 的 7 号 单 
元 。 常 量 不 存在 此 问题 ,因此 常量 表 在 整个 程序 中 只 设置 一 个 ,没有 层次 概念 。 常 量 表 带 到 运 
行 时 使 用 。 
在 EL 语言 中 ,函数 的 调用 作为 因子 使 用 。 函 数 调用 包括 计算 实 参 表达 式 ,传递 实际 参数 
和 转子 指令 。 等 到 从 函数 返回 ,就 从 数据 区 的 栈 顶 空 单元 取 回 函数 值 ( 函 数值 存在 该 数据 区 的 
0 号 单元 正好 是 施 调 数据 区 的 栈 顶 空 单元 ) 作 为 因子 的 值 使 用 。 
例如 , 遇 上 因子 S(a 十 b,c,5) 应 译 成 如 下 中 间 代 码 序列 : 
(十 ,a. addr,b.addr,t1) 
(: 二 ， 世 ,一 ,dp 十 5) {传递 实 参 到 形 参 单元 } 
(:=,c.addr,— ,dp 二 +6) 
(: 王 ,5.addr, 一 ,dp 十 7) 
(jsry 一 JS.addry 侍 为 相对 层次 , 调 同 层 取 0, 调 直接 外 层 取 1 ,例如 ,递归 调用 
自身 函数 取 1} 
(:= ,dp,— ,+t2) {函数 返回 取 函 数值 到 t2, 作 为 因子 } 


编译 程序 对 函数 调用 的 处 理 过 程 大 致 是 : 


i:=entry(id); 
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if table[i]. cat= ‘func. 'then 
begin scanner(a,b); 
if a='('then {如 果 有 实 参 , 则 传递 实 参 的 值 至 形 参 单元 } 
begin scanner(a,b);q:=1; 
E(k);queue(q):=k; 


while a=','do begin scanner(a,b);q: 王 qd 十 1;E(k) ;queue(q) :一 k end; 


if a 一 ') "then scanner(a,b); 
for i:=1 to q do gen(':=',queue[i],— ,dp 二 4+i) 
end; 
q:=lev—level;gen('jsr’,— ,.q,addr); 
temp:=newtemp;gen(':="',dp,— ,temp); 
fact:=temp 


end; 


[ 例 3] 将 如 下 含 函 数 说 明 语 句 的 EL 源 程序 翻译 成 四 元 式 代 码 序列 。 
program factorial; {计算 num! 和 num*2 exp num) 
var num facto:integer; 
function f(n:integer) :integer; 
begin 
if n>0 then f: 王 f(n 一 1) *n elsef: 一 1; 
num:=num*2 
end; 
begin 
readCnumy) ; 
facto:=f{(num); 
write(facto,numy/2) 


end. 


构造 的 符号 表 和 常量 表 如 附 表 3 与 附 表 4 所 示 。 


附 表 3 符号 表 附 表 4 常量 表 


注 :“ x ”表示 函数 了 的 四 元 式 入 口 序号 。 
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运行 时 动态 存储 结构 如 附 图 2 所 示 。 


递归 调用 
人 { 粕 据 区 


{ 数 据 区 


主 程序 
数据 区 


* 返 回 地 址 RA 填 调 用 指令 下 一 条 
指令 的 四 元 式 序号 ， 并 设 myw=5 


附 图 2 运行 时 部 分 栈 式 存储 分 配 


生成 的 四 元 式 中 间 代 码 序列 为 : 

Cy l= 

K2 = 

CB Cts 0 

(4) (jgt,5,1000,6) 

《57 《5 一 5 一 513) 

(6) (一 ,5,1001,2001) 

(7) (:= ,2001,—,11) 

(8 (jsts—5ls2) 

(9) (:= ,6,0,2002) 

(10) (¥* ,2002,5,2003) 

(11) (:= ,2003,—,0) 

(C12 Ch = 14) 

(13) (:= ,1001,— ,0) 

解释 执行 ,并 产生 结果 : 
would you run the program? y/n 
input one number,please! 
5 
120 160 end 
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(14) (* ,105,1002,2004) 
(15) (:= ,2004,— ,105) 
CO (net 7 = 
CTH Dts = 
(18) (in, 一 ,一 ,5) 

(19) (: 王 ,5, 一 ,12) 
《20) (jars=s = $2) 
(21) (:=,7,— ,2005) 
(22) (:= ,2005,0,6) 
(23) (out,—,— ,6) 
(24) (1/35;1002,2006》 
(25) (out, 一 ,一 ,2006) 
C20) (iets — ss 


注 :本 例子 除 说 明 函 数 递 归 调 用 外 ,还 说 明 全 局 量 引 用 方式 。 其 中 num 是 全 局 量 , 在 函数 
中 引用 了 它 , 因 此 回 到 主 程序 时 其 值 发 生 了 变化 。 


C. 扩充 的 EL 语言 文法 与 中 间 代 码 的 解释 执行 程序 


一 、 扩充 的 EL 语言 文法 定义 
《程序 ): :三 program( 标 识 符 );( 分 程序 ). 
〈 分 程序 ): :一 (说 明 部 分 (复合 语句 》 
《说明 部 分 2: :=[( 常 量 定义 )][L( 变 量 说 明 ?]{( 函 数 说 明 )|《 过 程 说 明 》} 
《常量 定 义 ) : :=const( 标 识 符 ) := (无 符号 数 );{( 标 识 符 )= (无 符号 数 ) ;} 
(变量 说 明 ): :=( 标 识 符 表 ) :( 类 型 ;{( 标 识 符 表 ) :( 类 型 ; } 
《函数 说 明 ): :=function( 标 识 符 )[(( 标 识 符 表 ) : (类 型 ))]: (类型) ; 
《分 程序 》 
(过程 说 明 ):: 二 procedure( 标 识 符 )[(( 标 识 符 表 ) : (类 型 ))]( 分 程序 》 
(类 型 ): :== (标准 类 型 
| array[ (无 符号 整数 ).. (无 符号 整数 )]of( 标 准 类 型 
(标准 类 型 ): :=integer | real 
(复合 语句 ):: = 二 begin( 语 句 ){;( 语 句 )}end 
《标识 符 表 ):: 三 (标识 符 ){,，( 标 识 符 )} 
《语句 ): :三 (标识 符 ) ;三 (表达 式 》 
(复合 语句 》 
站 (条件 表达 式 )then( 语 句 )[else( 语 句 )] 
while( 条 件 表达 式 )do( 语 句 》 
(过程 语句 》 
read(( 标 识 符 表 》)) 
write( (表达 式 表 )) 
,3 
《过 程 语句 ):: = (标识 符 )[(( 表 达 式 表 ) )] 
(表达 式 表 ): := 表达 式 ){,( 表 达 式 } 
《条 件 表达 式 ): :一 (表达 式 )( 关 系 运算 符 )( 表 达 式 》 
(表达 式 ): :一 [十 | 一 ]( 项 ){( 低 阶 运算 符 )( 项 } 
〈 项 ) : :一 〈《 因 子 ){( 高 阶 运算 符 )( 因 子 》} 
《因子 : :一 (标识 符 )[(( 表 达 式 表 ?)] 
| (( 表 达 式 )) | (无 符号 整数 ) | not( 因 子 》 
(关系 运算 符 ): :一 >> | 二 =1=| 二 | 二 =|<> 
〈 低 阶 运算 符 ): := 十 | 一 | or 
(高 阶 运算 符 )::=* |/| div | and 
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说 明 
(1) 标识 符 为 由 字母 打头 的 字母 数字 串 ,一 般 不 超过 8 个 字符 ; 
(2) 保留 字 由 小 写字 母 组 成 ,保留 字 表 应 增加 array ,of 等 ; 
(3) 除法 符号 “/” 等 价 于 div ,表示 整除 ; 圆 括 号 ”"(? 和 ”) ?是 终结 符 而 不 是 元 语言 符号 ; 
(4) 过 程 或 函数 调用 只 考虑 传 值 。 
二 、 解 释 执 行程 序 
procedure interpret 
var m:recod 
op:string; 
argl,arg2,result:integer 
end; 
s:array[ 0.. 200 Jof integer; {运行 时 栈 式 数据 区 } 
tpp:array[ 0. . 10 Jof integer; {临时 变量 栈 区 } 
p,t,b,tl:integer; 
terml ,term2 ,term3 ,order:integer; 
位 ,f2 :boolean; 
function base(n:integer) :integer; {寻找 直系 外 层 数据 区 首 址 } 
var bl:integer; 
begin 
bl:=b; 
while n>0 do { 沿 静 态 链 查找 } 
begin bl:=s[bl+1];n:=n—1 end 
base: 王 bl 
end; 
procedure opd(k:integer;var opdl :integer;var flag:boolean); 
{区 分 操作 数 类 型 ,并 取出 相应 的 值 由 opdl 送 回 } 
var kO ,kl :integer; 
begin flag:=false; 
放 k 过 1000 then ” {变量 } 
begin kl:=k div 100;k0:=k mod 100; 
opdl:=sLbase(k1) 二 k0] 
end 
else if k>2000 then {临时 变量 } 
begin opdl:=tpp[tl];tl:=tl—1;flag:=true end 
else opdl:=numtab[k—1000]; {常量 } 
end; 
begin 
t:=0;b:=0;p:=1;tl:=1; 
sL0j:=0;s[L1]:=0;s[2]:=0;sL3]:=0;sL4]:=0; 


282 


repeat 


m:=quad[pl];p:=p+1;{1:=false;{2:=false; 
with m do 
begin 
if op ="j'then p:=result; 
if op= 'prt'then t: 一 t 十 result; 
if(op=':=')or(op='@')then 
begin opd(Cargl,terml,fl); 
if op='@'then terml :一 一 terml; 
if result=1000 then 
s[Lbase(result div 100) 十 result mod 100]:=terml 
else begin tl1:=tl+1;tpp[tl]:=terml end; 


end; 


if(op='+')or(op='—')or(op="*')or(op="/')then 
begin 
opd(Cargl,terml,.fl)， 
opd(arg2 ,term2,{2); 
if{(f{l=true)and({2= true)then 
begin term3:=terml;terml]:=term2;term2:=term3 end; 
if op=' 十 'then term3 :一 terml 十 term2 
else if op 一 ' 一 'then term3 :一 terml 一 term2 
else if op 一 ' * 'then term3 :一 terml x term2 
else term3 :一 terml div term2; 
if result=1000 then 
s[base(result div 100) 十 result mod 100]:=term3 
else begin tl :一 t 十 1;tpp[tl]: 王 term3 end 
end; 
if(op= "jeq')or(op= "jgt')or(op= "jlt )or(op= "jge’ )or 
(op: ‘jle')or(op= "jne’)then 
begin 
opd(argl ,term!l.{1); 
opd(arg2 ,term2.,{2); 
if({1=true)and({2= true)then 
begin term3:=terml;terml:=term2;term2:=term3 end; 
if op= 'jgt then 
begin if ord(terml>term2)=1 then p:=result end 
else if op= 'jeq'then 
begin if ord(terml=term2)=1 then p:=result end 


else if op= "jlt'then 
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begin if ord(terml<term2)=1 then p:=result end 
else if op 一 'jge'then 
begin if ord(terml>=term2)=1 then p: 王 result end 
else if op 一 'jle'then 
begin if ord(terml==term2)=1 then p: 王 result end 
else if ord(terml=>term2)=1 then p: 王 result 
end; 
if op = "in'then 
begin writeln('input one numberl! ) ; 
readln(s[base(result div 100) 十 (result mod 100)]) 
end; 


if op = 'out'then 


begin 
opd(result,term]l,{1); 
write(terml,” '); 
end; 


if of = "jsr'then 
begin 
s[t+1]:=base(arg2);s[t+2]:=b;s[t+3]:=p; 
b:=t;p:=result 
end; 
if op= 'ret'then begin t:=b;p:=s[t+3];b:=s[t+2] end 
nd; 


until p=0; 


writeln('end') 


end; 


附录 2 


经 典 习 题解 析 


2-1. 解 :(1) 26*26 一 676 
(2) 26 * 10=260 
2-2. 解 :abcd 前 级 : e,a,ab,abc 及 abcd 
abcd 后 级 : e,d,cd,bcd 及 abcd 
abcd 子 串 : s,a,b,c,d,ab,bc,cd,abc,bcd 及 abcd 
abcd 子 序列 : a,b,c,d,ab,ac,ad,bc,bd,cd,abc,abd,acd,bcd,abcd 
abcd 真 前 级 : s,a,ab,abc 
abcd 真 后 级: s,d,cd,bcd 
abcd 真子 串 : a,b,c,d,ab,bc,cd,abc,bcd 


2-3. 解 :(1) 最 左 推导 :N 一 ND N 一 ND 
>NDD >NDD 
>DDD >DDD 
>2DD >0DD 
>23D >02D 
>235 >025 

最 右 推导 :N 一 ND N—>ND 
>N5 >N5 
>ND5 >ND5 
>N35 >N25 
>D35 >D25 
>235 >025 


(2) 若 选 N>ND, 它 是 递归 定义 ,利用 ND 作为 出 口 规则 以 终止 递归 , 则 可 以 产生 的 语言 是 
{(011121314151617181971 这 1) 。 


2-4. 解 :(1) Vy 一 {E,T,F} ,Vt 一 {十 ,一 ,* ,/,(,),i) ,元 语言 符号 集 :{| ,一 ) 。 


(2) 最 左 推导 :E 一 E 十 T E>T 
# 全 站 全 ~TxF 
> 下 十 工 > 下 关 下 
>i 十 工 >ix 下 
>i+TxF >ix (E) 
>it+Fx*F A i 


286 


(3) 


(4) 


itixP 


一 i 十 ixi 


最 右 推导 : E 一 E 十 TT 


>E+TxF 
>E+T*i 


> 


T 
a 芭 
| 


+ 
T 
| 
下 i 
| 

1 


于 可 一 一 喇 一 一 过 


ix*i 的 语法 树 


E>E+T 
>E—T+T 


>i—iti 


对 应 的 语法 树 为 : 


“1 
wa 
《一 下》 
>ix (i—F) 


—i¥x (i—i) 


B= 人 TT 

>T*F 
人 T*(E) 
< 一 了 了) 
-T(E—F) 
>T*(E—i) 
T= 
>T*(F—i) 
td 
>F* (i—i) 
>ix (i—i) 

E 

| 


ZI 
2 
2 


-7 


PR \ 


E 
| 
亚 
| 


ix (Ki 一 iD) 的 语法 树 


“一 "优先 于 “十 ” 


-下 


-一 一 -一 一 = 


由 上 图 可 知 , 先 做 减法 再 做 加 法 ,减法 运算 符 优先 。 


2-5. 解 :最 左 推导 :S 一 (T) 一 (T,S)-(S,S) 一 ((T),S) 
=((T,S),S) 
一 ((T,S,S),S) 
一 ((S,S,S) ,S) 
=»(((T),S,S),S) 
—(((T,S),S,S),S) 
>(((S,S),S,S),S) 
—(((a,S),S;S),S) 
—(((a,a),S,S),S) S 


一 (((aya), 人 ,S),S) Ts 
一 (((aya), 人 ,(T)),S) WAR 
="(((asa)s A (8S)),S) T S 
一 (((aya), 人,(a)),S) | | 
一 (((aya), A ,(a)),a) S 


最 右 推导 :S~~(T) ZN 


一 (TS) ( 工 ) 


TT,a) 人 个 、 
>(S,a) 个 
一 ((T),a) >((T,S) ,a) 


YC 
一 ((T,(T)),a) >((T,(S)) ,a) pA | | 
>((T,(a)),a) >((T,S, (a)) ,a) A 和 
>((S,S,(a)) ,a) 人 个、 | 
>(((T),S,(a)) ,a) CT a 
一 (((S),S,(a)),a) 个、 
一 (((T,S),S,(a)),a) 下 
>(((S,S),S, (a)) ,a) | | 
已 a 
>(((S,a) ,8,(a)) ,a) | 
一 (((a'a),S,(a)).a) a 
最 右 推导 的 语法 树 


>(((a,a), 人,(a)),a) 
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2-6. 解 :(1) aaabbbcc 的 最 左 推导 过 程 : 
SAB>aAB>aaAB->aaaAB 
—>aaaB—>aaabBc—>aaabbBcc 


—>aaabbbBccc—>aaabbbccc 


aaabbbee 的 语法 树 


(2) aabbBec 的 推导 过 程 : 
S-~AB-~aAB-~aaAB-~aaB-~aabBc 一 aabbBcc 


8 
aabbBecc 语法 树 
语言 L(Ge ) 一 {a" (bc)”(ab)"cn ,其 中 n 宇 0,m 宇 0}。 


2-12. 解 :E 十 Tx*Fxi 十 i 对 应 的 语法 树 为 : 


不 
(个 
RS 
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此 树 的 末端 符 从 左 往 右 连 成 的 串 即 为 E+T*E*i+i' 因 此 ,E+TTxFxi+i 是 文法 的 一 个 句柄 。 
短语 :i,T*F,TxFxiyE 十 Tx 下 xi'E 二 TxFxi 十 i 

直接 短语 :i,T* 下 

句柄 :Tx 下 


第 3 章 
3-3. 解 :构造 等 价 DFA M=({S,A,B,T},{a,b},f,S,{T}) 
f: fCS,b) 一 A 
f(A,b)=B 
f(A,a)=A 
f(A,b)=T 
f(B,a) 一 工 


此 NFA 经 确定 ,也 为 DFA。 


3-7. 解 :构建 一 个 等 价 的 DFA M'==(Q,5 ,6,1,F) ,相应 的 状态 转换 矩阵 如 下 : 


a 


三 {qo} {q ,qz} {qo} 

= {q ,qz} {qo ,qqz} 

= {qo ,qi,qz} {qo ,qi ,qz 上 {ql ,qz} 

志 zo} {qo ,qi [2 

一 {qo ,qi {qo qq? {qo} 
识别 动作 如 下 : 
(Jo ,bababab) (Jo ,abababb) 
FO ,ababab) 上 GD ,bababb) 
上 GT ,babab) 上 (IE ,ababb) 
上 (GT ,abab) FOL ,babb) 
FL ,bab) FY ,abb) 
ECE ab) HG ,bb) 
HF,b) FO,b) 
FO ,8) 


所 以 它 能 接受 bababab ,不 能 接受 abababb。 


3-8. 解 :(1) @ 将 正规 式 转化 为 NFA M。 
使 用 替换 规则 逐步 进行 分 裂 ,整个 替换 过 程 如 下 : 
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(x) 1(01D*101 (@, 
OOOO— 


OOOTOTOOO 


GOODO-OOO 


@ 将 以 上 NFA M 通过 表格 法 形式 进行 确定 化 , 见 下 表 : 


{{0,1,2,3,4},{5)} 
={{0,1,2,3},{4},{5}} 
I:={0,1,2},{(3},{4),{5}} 
Is={0,1},{2},{3},{4},{5)} 


在 等 价 状态 子 集 {1,2} 中 遇 状 态 2 为 代表 ,消去 状态 1, 得 简化 后 的 DFA: 


3-9. 解 :将 NFA 用 表格 法 确定 化 : 


R a b 
E 
L={0} {0,1} {1} 
LL={0,1} 140,1) {1} 
L={1} {0} E 


将 以 上 转换 图 最 小 化 : 
JI 一 {{Io,D} (LI 全 
此 时 不 可 再 分 , 选 状态 f 为 代表 ,消去 状态 D ,得 化 简 后 的 DFA: 


Pa 


a 
它 能 识别 的 语言 为 :a* (ba) * 。 


3 一 10. 解 :(alb)*((aa(alb)* )|(bb(alb) * )) 
S—>aS|bS|laA|bB 
A—>aZl 
Zi 一 aZ,|bZ |e 
B>bZ; 
Z: 一 bZ: |aZz |e 


3-11. 解 :(1) 设 M = ({S,B,C,D,E,T},{a,b,c,d},f,S,{S,T}) 


f:{(S,a)=B ES 二 下 
f{(B,b)=C f(E,c) 一 也 
f(B,b) 王 D 起 区 二 下 
f{(B,b)=E f(D,d)=T 
f(C,c)=B 


所 以 NFA 的 状态 转换 图 为 : 
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(2) 用 子 集 法 将 NFA 确定 化 , 设 确定 后 的 DFA M 王 (CQ,Y ,f,T,H) 


Q 

a b 下 d 
营 
L,={S} {B} € 到 € 
I={B} € {Cy DE} € € 
L={C,D,E} E E {B,T} {T)} 
B={B,T} € {C,D,E} E € 
L={T} E € € € 


得 DFA 的 状态 转换 图 如 下 : 


ons 


(3) 将 DFA 的 状态 分 为 终结 符 与 非 终结 符 两 大 类 : 
T= 
因为 f({L ,12)},a) = 

ML By), b=) 
ft sl},c) ={1,} 
f({l ,1},d) = {Ll} 
所 以 ={{D}),{L}), (LE 
因为 ft ,KR)，a) 一 人 ) 
f( ,l,l)},b) ={L)} 
{({h ,l,l)},c) = 
{({h ,hl)},d) = 
所 以 IT 不 可 再 分 。 
J ,Ts ,L 合并 为 ,得 简化 的 DFA 如 下 : 


L(M) = (b(cld)lab(c|d))* 


3-12. 解 :Giz: S>Be BAf A-~Aele 为 左 线性 文法 。 
(1) 构造 相应 状态 转换 图 : 
DFA M=({S,A,B,qo},{e,f},f,q,{S}) 
f(B,e) 一 S 
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f(A,f)=B 
f(A,e)=A 
f(qo,e)=A 


ce 

OR OE 
@ 识别 ffe 不 是 该 文法 的 句子 (qo ,ffe)。 
@ (qo ,efe) 上 上.(A,fe) Fi(B,e) 上 .(S,e) 即 efe 是 该 文法 的 句子 。 
@ (qo ,efee) 上.(A,fee) Fi(B,ee) 上 .(B,e) 无 法 推出 (S,e)。 
所 以 efee 不 是 该 文法 的 句子 。 
(2) 构造 右 线性 文法 
f(qo 1e)=A 
{(A,e)=A 
{(A,f)=B 
{(B,e)=S 
即 qo >eA 
A 一 eA 
A—fB 
BeS 


4-1, 解 : 
输入 带 尚未 分 析 串 输出 带 
i 十 i 间 


ii# 


i 十 i# 


i 十 # 


识别 成 功 
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4-2. 解 : (1) S~MIU 

(2) M>iEtMeM|b 

(3) U-~iEtS|iEtMeU 

(4) E>a 

此 文法 形成 语言 : 

S 一 M-~iEtMeM 
一 iat(iEtMeM)eM 
一 (iat )* MeMeM 
一 (iat )3 MeMeMeM 
一 (iat )"be” (iat)”b 


4-3. 解 :Gs SSA|Ablblc 
A>Bcla 
B>Sblb 

该 文法 有 间接 左 递归 
消除 文法 中 的 B 
A 一 Bcla 
一 Sbc|bcla 
消除 文法 中 的 A 
S>SA—>SSbc|Sbc| Sa 
S-~Ab-~~Sbcb|bcb|ab 
Sb 
Sc 
消除 左 递归 : 
S'SbcS'|bcS'|aS' |e 
S'—>bcbS’ 
S-~bcbS' |abS'|bS' |cS’ 
G3.3 S—YV, 
ViYV|ViiyV: 
Ve>Vs|Vz+t Vs 
Vs 一 Vix1|( 
消除 左 递归 : 
Vi'iV:V'le 
Vi 一 VaV' 
V: 一 十 Vs Va'le 
Ve>Vs Va’ 


4 一 4. 解 :Gs。 First(A)={a,b,c,d,g} 
First(B) 一 {b,e} 
First(C)= {a,c,d} 
First(D)= {d,e)} 
First(E)={g,c} 
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Follow(CA) 一 {f, 井 } 
Follow(B) 王 First(Cc) 一 {e} 十 Follow(A) 十 Follow(C) 

一 {aycyd',f,g, 井 } 
Follow(C) 王 {c} 十 First(DE) 一 {e} 十 First(E) —{e}={c,d,g} 
Follow(D) 王 First(B) 一 {e} 十 First(E) — {8})+Follow(A)= {a,b,c,f,g,#)} 
Follow(E)=Follow(B)= {a,c,d,f,g,#)} 


4-5. 解 :Gs., 文 法 本 身 无 左 递归 ,也 不 需要 提 公 因子 ,适当 变形 得 : 
A—>aAbc|BCf|cle 
B>Cdlec 
Cdfle 
写 出 每 个 非 终结 符 的 首 符 集 和 随 符 集 : 
First(A) 王 {a} 十 First(B) 十 {c} 十 {e} 
一 {a} 十 First(C) 十 {c} 十 {e} 
={a,c,d,e) 
同 理 得 :First(B) 二 {c,d)} 
First(C)= {d,e} 
Follow(A)={b,#)} 
Follow(B)= {d,f} 
Follow(C)={d,f} 
因为 First(BCf) 门 First(c) 天 已 
所 以 该 文法 不 是 LL(1) 文 法 。 


4-6. 解 :(1) 消除 左 递归 后 的 文法 为 : 


S—al 人 |(T) 
T-=ST' 
T' 一 ,ST'|e 


S-~~al 人 |(T) 的 递归 子 程序 如 下 : 
PROCEDURE  S; 
BEGIN 
IF SYM='a' OR SYM='A' THEN ADVANCE; 
ELSE 
IF SYM="'(’ THEN 
BEGIN 
ADVANCE; 
Ts 
IF SYM=")' THEN ADVANCE; 
ELSE ERROR 
END 
ELSE ERROR 
END; 
T-~~ST 的 递归 子 程序 如 下 : 
PROCEDURE T; 
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BEGIN 
Si;T' 
END 
T' 一 ,ST'|e 的 递归 子 程序 如 下 : 
PROCEDURE T'; 
BEGIN 
IF SYM=' ,THEN 
BEGIN 
ADVANCE; 
Sa 
END 
END; 
(2) First(S)={a, A ,(} 
First(T)={a, A ,(} 
First(T')={,,e)} 
Follow(S)=1{,,>,#)} 
Follow(T)={)} 
Follow(T')={))} 
因为 First() NFirst(A)=@ First(a)fNFirst((T))=8 
First(A)NFirst((T))=@ First(,ST) NFirst(e) = 
First(,ST) NFollow(e)=@ 
所 以 经 改写 后 的 文法 是 LL(1)。 
预测 分 析 表 为 : 


4-8. 解 :(1) First(E) 二 {(,a, 人 人 } 
First(T)={(,a, 人)} 
First(T')={(,a, A\ ,e} 
First(E')= {+ ,e} 
First(F)={(,a, 人} 
First(F') 一 { * ,e} 
First(P)={(,a, 人} 


Follow(E)={},#})= Follow(E') 
Follow(T)= Follow(T')= {十 ,},#} 
Follow(F)= Follow(F’)= { (, ) ,a, A ,十 ,#)} 
Follow(P)={*)} 
(2) 检查 文法 产生 式 , 该 文法 不 含 左 递归 ,该 文法 中 每 个 非 终结 符 首 符 集 不 相交 , 且 E',T',F' 
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都 有 s 产生 式 , 且 

First(E) NN Follow(E) = 

First(T') NN Follow(T')=@ 

First(F') (| Follow(F')=8 

所 以 经 改写 后 的 文法 是 LL(1)。 
(3) 预测 分 析 表 为 : 


me 
第 5 章 
5 -5. 解 : 首 终结 符 集合 FIRSTVT(P) 二 {alP 一 a… 或 P 一 >Q,…,a€ Vr,P.QE Vy)} 
FIRSTVT(A)={(,i,))} LASTVT(A)={(,i,)) 


FIRSTVT(B)= {1 LASTVT(B)= {i} 
FIRSTVT(2)={() LASTVT(Z) 一 {)} 
算 符 优先 表 


优先 函数 略 。 


5-6. 解 : 画 出 语法 树 
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短语 有 :T,Tx*F,i,TxFxi'T+TTxeFxi'T+TTxFxi+i 
素 短语 有 :T* 下 ,i,T 


S-7. 解 : (1) FIRSTVT(S)=={a, 人 人,C} 
FIRSTVT(T)={,,a, M,C} 
FIRSTVT(S)= {a, A ,)} 
FIRSTVT(T)={,,a, NM ,)} 


(2) 算 符 优先 表 

在 

二 a 人 ( ) 3 # 

a > > > 

A > > > 

( 起 二 去 性 < SS 

和 > > > 

云 二 去 > > > 

# 过 < 运 三 
(3) 优先 函数 表 


输入 串 动作 
((a,a), 信 )## 
#C (asa), 信 )# 移 进 


#(( aya)， 人 ) 井 移 进 


#((a ,a) ,人 )## 移 进 


#((S ,a), 八 )# Sa 归纳 
#((T ,a), 八 )# TS 归纳 


#((T, a), 八 )# 移 进 


#((T,a ),A)# 移 进 


#((T,S ), 人 ) 井 Sa 归纳 


#0(T:) ,人 )# 移 进 
,人 ) 井 T-~T,S 归纳 


井 ((T) 


， 八 )# S(T) 归 纳 


,人 ) 间 TS 归纳 
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移 进 


S-~~ 人 归纳 
T->~T,S 归纳 
移 进 
S~~(T) 归 纳 
该 算 符 优先 归纳 的 过 程 语法 树 为 : 
S 


Si 
第 6 章 
6-1. 解 :文法 :1.S' 一 S 2.S>AS 3.S->b 4.A-~SA 5.A—a 


LR(0) 项 目 
QOS 5S 


li.A>a* 
子 集 法 确定 转化 NFA 为 


转化 DFA 


识别 活 前 缀 的 DFA 
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LR(0) 分 析 表 
ACTION GOTO 


总 


I 
党 
5 


在 状态 1 识别 a 和 识别 b 时 有 移 进 和 归 约 的 冲突 ,所 以 这 文法 有 二 义 性 。 


6-2. 解 :(1) Gs 的 拓 广 文法 为 : 
1. S'S 2. S-~(A) 3. A-~ABB 4. A-=B 5. B>b 
该 文法 的 项 目 集 I 为 : 
1, S'—=»S 
2. S'>S. 
3. S-~。(A) 
4. S->(。A) 
S>(A.) 
6. S>(A). 
7. A—> .+ ABB 
8. A™>A. BB 
9. A>AB.B 
10. A—™>ABB. 
11. A>.B 
12. A>B. 
13. B>.b 
14. B>b*: 
(2) 该 文法 是 SLR 文法 ,不 存在 移 进 一 归纳 冲突 ,SLR 分 析 表 为 : 
ACTION GOTO 


a 


( S 


S a 
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6-3. 解 :(1) 


文法 G3.1 的 DFA 


Follow(S)= Follow(E)= {a,b,#) 
文法 Gs.1 的 LR(0) 分 析 表 


ACTION GOTO 


S 


302 


L:Y 一 ce， | 一 一 一 


文法 G3.; 的 DFA 
文法 G3.; 的 LR(0) 分 析 表 


Follow(Y)= {a,b) 

Follow(X)= {a,c} 

Follow(S){#)} 

综合 分 析 ,Gs.1 和 Gs.: 均 为 SLR 文法 。 


6-4. 解 :(1) LR(1) 分 析 表 为 : 


1,:S.S# 
S— + T# 
T— + T(T),(# L:S—T. ,(# 
Ts(# ToT * (TD).(# 


T—T(* T),(I# 
T—* TM 


BT 一 TO )() 


T 一 TD,() 
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文法 Gs 的 DFA 
ACTION GOTO 
( S 
1 


Follow(S)={#)} 
Follow(T)={),#} 
(2) 分 析 过 程 


符号 栈 
划 
井 E 
井 工 
#T( 
#T(e 
#TCT 
#T(T(e 
装 TCT(T 
#T(T(T) 
#T(T(T)) 
#T(T) 
#T(T) 
#T 
井 工 井 
井 和 井 


向 
Ea 


wol~lolalasliw|lv|i-|io 


识别 成 功 


6-5. 解 :分 析 LR(0)、SLR(1) .LR(1) .LALR 有 何 特征 ? 本 质 区 别 是 什么 ? 
它们 的 共同 特征 :用 规范 归 约 的 方法 寻找 句柄 , 即 LR 分 析 器 的 每 一 步 工 作 都 是 由 栈 顶 状态 和 
现行 输入 符号 所 唯一 决定 的 。 
LR(0) :无 论 输入 符号 是 什么 ,都 认为 栈 顶 的 符号 串 为 句柄 而 进行 归 约 ; 
SLR(1) :对 现行 输入 符号 加 了 一 些 限 制 , 即 该 输入 符号 必须 属于 允许 跟 在 句柄 之 后 的 字符 范 
围 内 , 才 认 为 栈 顶 的 符号 串 为 句柄 而 进行 归 约 ; 
LR(1) :对 现行 输入 符号 的 限制 则 更 加 严格 , 它 在 该 输入 符号 跟 在 栈 顶 的 这 个 符号 串 为 句柄 ， 
从 而 进行 归 约 ; 
LALR 与 LR(1) 相 同 ,只 不 过 它 把 那些 栈 顶 符号 串 相 同 但 现行 输入 符号 不 同 的 判断 合 一 。 
0 
1. S>AaAb 
2. S>BbBa 
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二 和 

4. B>e 
Follow(S)={#,b,a)} 
Follow(A)= {a,b} 
Follow(B)= {a,b} 


Lh:S—*:S 
S—* AaAb 
S— * BbBa 
太一 “已 
B- 5 


文法 Gs 的 DFA 


action 


a 


6-6. 解 :(1) P' 一 P 
P—>bD:;Se 
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D>dID;d 
S>s|S;s 


L,:P—b . D:Se# 
D— * d:d: 


D—= : D;d; 


111:D 一 D:d*# 
Lo : P—bD:Se.# 


文法 G6 的 LR(1)DFA 


分 析 过 程 


(3) 


输入 串 
bd;S;Se# 


#b 


d;S;Se# 
;S;Se# 


#bd 


#bD 


;S;Se# 
S;Se# 


0245 


# bD; 


02457 


#bD;S 


;Se# 
;Se# 


02456 


#bD;S 


024568 


#bD;S; 


;Se# 
Se# 


024568 


井 bD;S; 


024569 


井 bD;S;S 


e# 


02456810 


# bD;Se 


01 


#P 


0 


识别 成 功 
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(1) 


(2) 


结束 
(LY GA 
(2) Cis 16 
(3) (<,B,D,(5)) 
(4) (j，，,(16)) 
(5) G,A,_,(7)) 
C6) Cs C10)) 
(7) (十 ,C,1T) 
3 
《9 (PR 4 


(10) (== ,A.,D,(12)) 


[ard eR 
(12) (+,A,2,T,) 
(13) (:=,T;,_,A) 
人 
OD Rd RO 
(1) G<,w,1,(3)) 
CY Cy 
Ca ye 
二 
NE 
(6) G，，,(1)) 
Co Ey ey, 
Ca CE = TA 
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(9) (j<<,A,0,(11)) 
《0 人 全》 


9-8. 解 :(1) DC) 一 {1) 

D(C2)=D(D)N (2)={1,2) 
DC(3)=DAWNDOYINDAY NDS)U {={1,3} 
D(4)=D(3)NDGO)U {4}=1{1,3,4} 
D(5)=D(4)U{5}={1,3,4,5} 
D(6)=D(4)N {6}={1,3,4,6} 
D(7)=D(5)mnD(G)mDGoU{7} 王 (1,3,4,7} 
D(8)=D(7)U{8}={1,3,4,7,8} 
D(9)=D(8)U{9}={1,3,4,7,8,9} 
D(10)=D(8)U {10}={1,3,4,7,8,10} 

(2) 流 图 中 的 回 边 有 :43 @7 一 4 四 10 一 7 
@8>3 @9-~1 

(3) 流 图 中 的 循环 有 :@{4,3,7,5,6,10,8} @{7,4， 

5,6,10,8} @{8,3,7,5,6,10,4} @{9,1,8,7,5,6, 

10,4,3,2,1} ©@{10,7,8} 


9-9. 解 :程序 流 图 为 : 


.00.0.0.5, 


(1) D()={1} 
D(2)=D(D MND)U {2}=1{1.2} 
D3)=DOMMNDOIU (= {1,253} 
D(4)=D(2) NDG)U {4}={1,2,4} 
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D(5)=D(4)U{5)={1,2,4,5} 
D(6)=D()H NDA U6)={1.2.4.,6} 
(2) 流 图 中 的 回 边 和 相应 的 循环 为 : 
@5 一 3 ”循环 ={5,3,4,2,1} 
@6-~2 ”循环 ={6,2,5,4,3) 


9-11. 解 :对 以 上 程序 进行 标号 分 块 , 得 


0 
© 
@ 


Y 
… 循 环 一 {Bs ,B,} 
优化 后 的 代码 为 : 
read J ,K 
A:=0 
B:=0 
及 :一 100* K 
Ls if A>R gotolL! 
A:=A+K 
B:=B+]J 
C:=AxC 
write C 
goto 工 
Las halt 
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